历时 8 年 ， 三 次 重 构 ， 内 容 愈加 炉火纯青 。 DY 
全 部 代码 更 新 至 全 新 的 Linux 4.0 版 本 。 CEQ O 
全 面 讲 解 ARM Linux 新 版 本 内 核 架 构 ， 如 设备 树 等 。 


不 仅仅 注重 知识 和 程序 的 讲解 ， 更 注重 程序 的 思想 、 演 变 、 架 构 和 算法 。 王八 也 Linux 
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推荐 序 一 


扩 术 日 新 月 异 ， 产 业 斗 转 星 移 ， 滚 滚 红 侍 ， 消 逝 的 事物 太 多 ， 新 事物 的 诞生 也 更 迅 狐 。 众 多 新 生 事 物 
如 灿烂 烟 伦 ， 转 瞬 即 授 。 妆 我 们 仙 户 星空 时 ， 在 浩如烟海 的 专业 名 词 中 寻找 ， 攻 然 友 现 ，Linux 的 生命 力 
之 旺 侣 硕 强 ， 斗 志 之 昂扬 雄 半 ， 令 人 称奇 。 它 正 以 摧 村 拉 楚 之 势 迅 速 占领 包括 服务 占 、 云 计算 、 消 弓 电 
子 、 工 业 控 制 、 仪 如 仪 表 、 叶 航 娱乐 等 在 内 的 众多 应 用 领域 ， 并 过 步 占据 许多 WINCE、VxWorks 的 传统 
RAATH. 


Linux Zh, ALTAR. 1X5 Linux hE KAFR, TR EIAIC ACK A © Linux ®2~3 H Er 
TRIAS, REACTS ZR ARAM. oS Fred. SR. ARTA REE, BE T3 Linux bh ee Ue TE 2s — AY [8] 
AWG AP WERK, POE VI ERNA. FA Linux DA HRE Linux ve {7 P^ i 9 AHIR de MV RUE 
好 者 构成 了 一 个 庞大 的 Linux 生 态 圈 。 而 本 书 ， 无 疑 给 这 个 庞大 的 生态 较 注 入 了 养料 。 


然而 ， 养 料 的 注入 应 该 是 持续 不 断 的 。 至 今 ，Linux 内 核 的 底层 BSP、 驱 动 框架 和 内 核实 现 发 生 了 许 
多 变更 ， 本 书 涵盖 了 这 些 新 的 变化 ， 这 将 给 予 开 发 者 更 多 新 的 帮助 。 内 核 的 代码 不 断 重 构 并 最 优化 ， 而 本 
书 也 无 疑 是 一 次 重大 的 重 构 。 


^E. HERI AN IE 


周 立 功 


推 存 序 二 
FEMME 了 《Understandineg the Linux Kernel》 和 《Linux Kernel Development) XAKER, FARE 
询问 如 何 学 习 Linux 内 核 时 ， 我 都 不 敢 贸 然 给 出 建议 。 如 此 庞大 的 内 核 ， 各 个 子 系 统 之 间 的 天 系 错 综 复 
ZR, TRAGAS Wt SIAR, BURA AF? 你 的 出 及 点 是 哪里 ?你 想 去 的 彼 必 又 是 哪里 ?相应 的 学 习 方 
法 者 不同。 


一 且 踏 入 Linux 内 核 领 域 ， 要 精通 Linux 内 核 的 精 敌 ， 儿 乎 没有 捷径 可 走 。 尽 管 通 往 山 顶 的 路 有 无 数 
条 ， 但 每 条 路 上 都 布 满 荆 杯 ， 或 许 时 间 和 效力 才 是 斩 草 披 环 的 利器 


从 最 家 到 现在 ，Linux 内 核 的 版 本 更 新 达 上 于 个 ， 代 三 规模 不 断 增 长 ， 平 均 每 个 厂 本 的 新 增 代 码 有 4 万 
右 。 在 源 代 码 的 10 个 主要 子 目 录 Carch. init. include. kernel. mm. IPC. fs. lib. net. drivers) 
rH, OX SREP CS ee SAE RBA. 


从 软件 工程 角度 来 看 内 核 代码 的 变化 规律 ，Linux 的 体系 结构 相对 稳定 ， 子 系统 数 变 化 不 大 ， 平 均 每 
个 模块 的 复 森 度 呈 下 降 趋 势 ， 但 系统 整体 规模 和 复杂 性 分 别 呈 超 线性 和 接近 线性 增长 趋势 。drivers 和 arch 
等 使 其 的 快速 变化 是 引起 系统 复杂 性 增加 的 主因 。 那 么 ， 在 代码 量 最 多 的 张 动 程 序 中 ， 有 什么 规律 可 御 ? 
最 根本 的 义 古 什么 ? 


本 书 更 多 的 是 天 于 Linux 内 核 代 公 背后 机 理 的 讲解 ， 呈 现 给 读者 的 是 一 种 思考 方法 ， 让 读者 能 够 在 思 
竹中 人 举一反三。 尽 官 驱动 程序 只 和 是 内 核 的 一 个 子 系统 ， 但 Linux 内 核 是 一 种 整体 结构 ， 替 一 肥 而 动 全 局 ， 
对 Linux 内 核 其 他 相关 知识 的 向 握 是 开 友 驱动 的 基础 。 本 书 的 内 容 包 括 中 断 、 定 时 如 、 进 程 生 命 周 期 、 
uevent、 并 发 、 编 译 乱 序 、 执 行 乱 序 、 等 得 队列 、L/O 模 型 、 内 存 管 理 等 ， 实 例 代码 也 被 大 幅 重 构 。 


明代 著名 的 思想 家 王 明 阳 有 人 句 名 言 “ 知 而 人 不行， 是 为 个 知 ; 行 而 个 知 ， 可 以 致知 ?>。 因 此 在 研读 本 书 
时 ， 你 一 定 要 莱 里 实践 ， 在 实践 之 后 要 提升 思考 ， 如 此 ， 你 才 可 以 越过 代 人 码 本 里 而 看 到 内 核 的 深层 机 理 。 
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Linux M c fe ax a EY A. Linus Torvalds， 世 界 上 最 伟大 的 程序 员 之 一 ，Linux 内 核 的 创始 人 ，Git 的 
缔造 者 ， 现 在 仍然 在 没 日 没 夜 地 合并 补丁 、 升 级 内 核 。 做 技术 的 人 ， 从 来 没有 终 南 捷径 ， 拼 得 束 是 坐 冷 板 


HRI o 


Jot xi — 1 E a) x A A ITAR, FERRER STR MTE isd. FR ADE TERI 
WME RF PD ROFL AS RIMAE Linux Lhe), 440105) f8] DJ ES ae” Linux At, Ae FEN FAR 
验 ， 而 他 们 的 “精通 ” 却 只 是 把 某 个 寄存 器 从 0 改 成 1， 从 1 改 成 0 的 不 断 重 复 ; 我 也 见 过 许多 Linux 工 程 师 ， 
(WAAL, mXTI B OWA SRI REC, MARRE RRS, JPN DT MATT E Bl OAR 
系 。 


这 征 要 把 “ 牢 撒 "华军 的 程序 员 ， 这 样 “ 忙 忙碌 碌 ? 的 程序 员 ， 从 来 都 不 算是 好 程序 员 。 


对 于 优秀 的 程序 员 ， 其 最 优秀 的 品质 是 能 够 心平 气 和 地 学 习 与 思考 问题 ， 透 析 代 但 到 后 的 架构 、 原 理 
和 设计 思想 。 没 有 思想 的 代 公 是 垃圾 代码 ， 没 有 思想 的 程序 员 ， 只 十 在 完成 低 水 平 乍 复 建 设 的 体力 活 。 人 很 
多 程序 员 从 不 过 问 目 己 写 的 代 公 最 后 在 机 各 里 面 古 泽 么 跑 有 的， 很 多 事情 惕 名 其 妙 地 友 生 了， 很 多 bug 况 名 
其 妙 地 闪失 了 ..…….….. 他 们 永远 部 在 得 过 且 过 。 
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FAK, fIAE T ASR OA, A ie 2s eae B EXXTLinueg ARBIBBUHE, ADAN 
定 根 葵 。 本 书 呈 现 给 读者 的 更 多 的 是 一 种 思考 方法 ， 而 不 是 知识 点 的 简单 罗列 。 


本 书 际 对 基础 理论 部 分 进行 了 评 细 的 讲解 外 ， 还 加 强 了 对 驱动 编程 所 涉 友 的 Linux 内 核 最 发 层 机 理 有 的 
讲解 ， 内 容 包 括 中 断 、 定 时 器 、 进 程 生命 周期 、uevent、 并 发 、 编 译 乱 序 、 执 行 乱 序 、 等 待 队 列 、LIO 模 
"T. AAP RES. HER SE mL. REWE Ree n Se Linux eB €. TET R RAAR 
基 ， 才 能 六 为 有 余 。 


了 张 劲 编程 育 后 的 内 核 原 理 ， 并 试图 从 Linux 内 核 的 上 百 个 张 劲 子 系统 中 寻找 出 内 部 规律 ， 以 培养 谈 者 举 
一 反 三 的 能 


Linux 内 核 有 上 白 个 驱动 子 系统 ， 这 一 后 从 内 核 的 drivers 于 目录 中 束 可 以 看 出 来 : 


c | mmc pla 
pi connec tor gpio isdn modules.builtin pnp scsi uwb 
amba coresight gpu Kconfig modules.order power sfi vfio 
android cpufreq hid leds mtd powercap sh vhost 

hsi vi 


d 
bluetooth regulat 
built-in.o edac iio menmor y parport remoteproc tc 
bus eis set | thermal zorro 
cdrom extcon input message pcmcia 4 


char irewire | m 
clk firmware ipack misc pinctrl 


好 吧 ， 候 了 于 才 会 一 个 目录 一 个 目录 地 去 看 ， 一 个 目录 一 个 目录 地 从 头 学 起 。 我 们 劳 必 要 寻找 各 种 驱动 
子 系 统 的 共性 ， 近 过 规律 。 在 本 书 中 ， 我 们 将 更 多 地 看 到 各 驱动 于 系统 的 类 比 ， 以 及 驱动 子 系 统 的 层 钦 化 


设计 。 


技术 工作 从 来 都 不 能 一 元 永 逸 。 世 界 变 化 得 太 快 ， 当 前 技术 平 新 的 速度 数 倍 于 我 们 父 阐 、 祖 奉 、 祖 祖 
替 经 历 过 的 任何 时 代 。 证 明 你 是 “ 真 球迷 ”还 是 “ 伪 球 迷 ” 的 时 候 到 了 ， 这 个 时 代 是 伪 程 序 员 的 地 狱 ， 也 是 真 
TEE ja BIA. 


从 浩如烟海 的 知识 体系 、 不 断 更 新 的 软件 版 本 中 终生 和 学习， 不 断 攻 殉 一 个 个 挑战 ， 获 取 新 养分 ， 寻 找 
新 灵感 ， 这 实在 是 黑暗 的 码 农 生 涯 中 不 断 闪现 的 玲 下 光 亡 。 


Linux Bj PI ROSSO. HAS f Linux 3.0. Linux 3.1. Linux 3.2、...、Linux 3.19、Linux 4.0、 
Linux 4.1, SERERE, AEH Linus HATS e 


XX Jc SEU EAB HSA, SEGEDLinuxdp 728 FE WY AU AA ARAL TN A ie. DIG, AN 
书 有 大 量 关 于 设备 树 、ARM LinuxfzfH. Linux EW EE, GPIO, INS. ERTAS pinmux. DMA A Z. 
我 们 的 操作 平台 也 转移 到 了 QEMU 模 拟 的 4 核 Cortex-A9 电 路 板 上 ， 书 中 的 实例 基本 都 转移 到 了 市 面 流 行 的 
新 必 帮 上 。 


最 近 两 三 年 ， 老 征 听 许多 程序 员 抱 扰 ， 市 面 上 缺乏 讲解 新 内 核 的 资料 、 缺 乏 从 头 到 尾 讲解 售 备 树 的 次 
料 ， 但 是 我 四 说 ， 这 实在 不 是 什么 难 点 。 难 点 仍然 是 本 书 基 于 第 一 个 出 友 点 要 解决 的 问题 ， 如 朱 有 好 的 基 
偶 ， 以 优秀 程序 员 极 强 的 学 习 能 力 ， 应 访 很 快 融 可 以 午 握 这 些 新 知识 。 机 制 没 有 变 ， 变 化 的 只 十 脓 略 。 


因此 学 习 能 力也 是 优秀 程序 员 的 叉 一 个 重要 品质 。 没 有 人 生 下 来 加 是 天 才 ， 民 好 的 学 习 能 力也 征 通 过 
后 天 的 不 断 学 习 塔 养 的 。 可 以 说 ， 学 得 越 多 的 人 ， 学 新 东西 的 速度 一 定 越 快 ， 学 习 能 力也 变 得 越 踢 。 
为 ， 知 识 的 共通 性 实在 太 多 。 


读者 在 阅读 本 书 时 ， 不 应 该 企图 把 它 当成 一 本 工具 书 和 查 API 的 书 ， 而 是 应 该 把 它 当 作 一 本 梳理 理论 
体系 、 开 发 思想 、 软 件 架构 的 书 。 唯 如 此 ， 我 们 才能 适应 未 来 新 的 变化 。 


时 代 的 深 深 车 轮 推动 看 Linux 内 核 的 版 本 不 断 问 前 ， 也 推动 看 每 个 人 的 人 生 。 红 企 深 深 ， 
我 不 去 四 是 合 能 够 成 功 ， 

BEATE [ 367], 

[E X BULL BS SHORE o 


最 后 ， 本 书 能 得 以 出 版 ， 要 感谢 市 领 我 辐 前 的 人 生 导 师 和 我 的 众多 小 伙伴 ， 他 们 或 者 在 我 人 生 的 关键 


时 刻 改变 了 我 ， 或 者 给 我 黑 蜡 的 程序 生涯 市 来 了 无 尽 的 快乐 和 动力 。 我 的 小 伙伴 ， 他 们 力 报 我、 或 励 我 ， 
BEAR KKR, RHE RAN ATE 


MDB, BED ESE. WER Tree. AE. REN PÈ ER XI. ERAS fI 
WE. EZA ot. AKE, RWE, EUHOX. EX IS. xe. REAT ah. TERR. REE, 
胡 良 兵 、 张 家 旺 、 王 雷 、Bryan Wu. Eric Miao, Cliff Cai. Qipan Li, Guoying Zhang. BEERS. Haoyu 
Zhong, XNA. ZAI, WE. PEE, RE, Bob Liu、 赵 小 看 、EJ Zhao, Wt, XE, Hao 
Yin ZA AK FETE, VEDO, KARRIERA FARKA IKA, FEA SCRE 
的 深 深 感 激 ， 本 书 的 写作 时 间 超 过 一 年 ， 其 过 程 是 一 种 巨大 的 肉体 和 精神 折磨 ， 没 有 他 们 的 默默 支持 和 不 
rR, ASSEN AT RESO REN; 谨 以 此 书 ， 对 为 本 书 做 出 巨大 贡献 的 编辑 、 策 划 老 师 ， 尤 其 是 张国强 老师 
致 以 深 深 的 感激 ! 


由 于 马 幅 的 关系 ， 我 没有 办 法 一 一 列举 我 要 感激 的 所 有 有人， 但是， 这 坚 年 从 你 们 那里 获得 的 ， 远 远大 
于 我 付出 的 ， 所 以 ， 在 内 心 深 人 处 ， 唯 有 怀 看 对 你 们 的 深 深 感恩 ， 不 断 前 行 。 风 月 如 歌 ， 召 歌 狂 行 。 


全 书 结构 


本 书 自 先 介 绍 Linux 设 备 驱 动 的 基础 。 第 1 草 人 简 要 地 介绍 了 设备 驱动 ， 并 从 无 操作 系统 的 设备 驱动 引出 
了 Linux 操 作 系 统 下 的 设备 驱动 ， 介 绍 了 本 书 所 基于 的 开发 环境。 第 2 章 系 统 地 讲解 了 Linux 驱 动工 程 师 应 
该 掌握 的 硬件 知识 ， 为 工程 师 打 下 Linux 驱 动 编程 的 硬件 基础 ， 详 细 介 绍 了 各 种 类 型 的 CPU、 存 储 器 和 党 
见 的 外 设 ， 并 兰 述 了 人 硬件 时 序 分 析 方 法 和 数据 手册 阅读 方法 。 第 3 章 将 Linux 议 备 张 动 放 在 Linux 2.6 1% 
景 中 进行 讲解 ， 说 明 Linux 内 核 的 编程 方法 。 由 于 驱动 编程 也 在 内 核 编程 的 范畴 ， 因 此 ， 这 一 章 实质 是 为 
编写 Linux 设 备 驱 动 打 下 软件 基础 。 


其 次 ， 讲 解 Linux 设 备 驱 动 编程 的 基础 理论 、 和 字符 设备 驱动 及 设备 驱动 设计 中 涉及 的 并 友 控 制 、 同 步 
竺 问题 。 第 4、5 半 分别 讲解 Linux 内 核 栋 块 和 Linux 设 备 文件 系统 ; 第 6~9 章 以 虚拟 设备 globalmem 利 
globalfifo 为 主线 ， 逐 步 给 其 添加 高 级 控制 功能 ， 第 10、11 章 分 别 阐述 Linux 驱 动 编程 中 所 涉及 的 中 断 和 定 
时 般 、 内 核 和 LO 操作 处 理 方法 。 


接着 ， 谢 析 复 杂 设 备 张 动 的 体系 结构 以 及 块 设备 、 网 络 设备 驱动 。 该 篇 讲解 了 设备 与 驱动 的 分 离 、 主 
机 控制 器 驱动 与 外 设 驱 动 的 分 离 ， 并 以 大 量 实例 (如 input、tty、LCD、platform、I*C、SPI、USB 等 ) 来 
佐证 。 其 中 第 12 草 和 第 17 重 遥相呼应 ， 力 图 全 面 地 展示 驱动 的 架构 。Linux 有 100 多 个 驱动 子 系 统 ， 逐 个 讲 


可 以 举一反三 。 


本 书 最 后 4 章 分 机 了 Linux 的 议 备 树 、Linux 移 植 到 新 的 SoC 上 的 具体 工作 以 及 Linux 内 核 和 张 动 的 一 些 
调试 方法 。 这 些 内 容 ， 对 于 理解 如 何 从 头 开 始 拱 建 一 个 Linux， 以 及 整个 Linux 板 级 支持 包 上 上 下 下 的 关系 
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分 机， 讲解 设备 驱动 与 便 件 和 操作 系统 的 天 系 。 


1.4 贡 对 Linux 操 作 系 统 的 设备 驱动 进行 了 概要 性 的 介绍 ， 给 出 设备 驱动 与 整个 软 人 硬件 系统 的 关系 ， 分 
析 Linux 设 备 张 动 的 重点 、 难 点 和 和 学习 方法 。 


1.5 节 对 本 书 所 基于 的 QEMU 模 拟 的 vexpress ARM Cortex-A9 四 核 开 发 板 和 开发 环境 的 安装 进行 介绍 。 


本 章 最 后 给 出 了 一 个 设备 驱动 的 “Hello World” 实 例 ， 即 最 简单 的 LED 驱 动 在 无 操作 系统 情况 下 和 Linux 
操作 系统 下 的 实现 。 


1.1 设备 驱动 的 作用 


任何 一 个 计算 机 系统 的 运转 都 是 系统 中 软 使 件 共同 努力 的 结束 ， 没 有 使 件 的 软件 是 空中 楼 阁 ， 而 没有 
软件 的 便 件 则 只 是 一 扒 废 铁 。 便 件 是 展 层 基础 ， 征 所 有 软件 得 以 运行 的 平台 ， 代 码 了 最 终 会 沙 实 为 使 件 上 的 
Za Fe SIN ae; 软件 则 实现 了 基体 应 用 ， 它 按照 各 种 不 同 的 业务 需求 而 设计 ， 并 完成 用 户 的 最 终 诉 
求 。 便 件 较 回 定 ， 软 件 则 很 赤 活 ， 可 以 适应 各 种 复杂 多 灾 的 应 用 。 因 上 此， 计算机 系统 的 软 便 件 相互 成 束 了 
对 方 。 


但 是 ， 软 硬件 之 间 同 样 存 在 着 悖 论 ， 那 就 是 软件 和 硬件 不 应 该 互相 渗透 入 对 方 的 领地 。 为 尽 可 能 快速 
地 完成 设计 ， 应 用 软件 工程 师 不 想 也 不 必 关 心 便 件 ， 而 便 件 工程 师 也 难 有 在 够 的 内 上 暇 和 能 力 来 顾及 软件 。 
辟 如 ， 应 用 软件 工程 师 在 调用 又 接 字 友 送 和 接收 数据 包 的 时 候 ， 不 必 关 心 网 卡 上 的 中 断 、 寄 存 右 、 和 存储 空 
间 、LO 端 口 、 片 选 以 及 其 他 任何 硬件 词汇 ， 在 使 用 printff〈()〉 函数 输出 信息 的 时 候 ， 他 不 用 知道 底层 究 苋 
征 怎样 把 相应 的 信息 输出 到 屏 医 或 者 串口 。 


也 惑 是 次， 应 用 软件 工程 师 需 要 看 到 一 个 疫 有 使 件 的 纯粹 的 软件 世界 ， 人 硬件 必 须 透 明 地 呈现 给 他 。 谁 
来 实现 使 件 对 应 用 软件 工程 师 的 隐形 ? 这 个 光 弯 而 艰巨 的 任务 融 落 在 了 张 动工 程 师 的 头 上 。 
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体 工 作 方式 ， 读 与 设备 的 寄存 器 ， 完 成 设备 的 轮 询 、 中 断 处 理 、DMA 通 信 ， 进 行 物理 内 存 回 虚拟 内 存 的 
映 出 等， 最终 让 通信 设备 能 收 肥 数据 ， 让 显示 设备 能 喧 示 文字 和 田 面 ， 让 存储 设备 能 记录 文件 和 数据 。 


由 此 可 见 ， 设 备 驱动 充当 了 硬件 和 应 用 软件 之 间 的 纽带 ， 应 用 软件 时 只 需要 调用 系统 软件 的 应 用 编程 
BEL] CAPD 就 可 让 硬件 去 完成 要 求 的 工作 。 在 系统 没有 操作 系统 的 情况 下 ， 工 程 师 可 以 根据 硬件 设备 的 
特点 自行 定义 接口 ， 如 对 串口 定义 SerialSend () 、SerialRecv O ， 对 LED 定 义 LightOn O) 、 

LightOff () ， 对 Flash 定 义 FlashWr () ~ FlashRd O 等 。 而 在 有 操作 系统 的 情况 下 ， 驱 动 的 架构 则 由 相 
应 的 操作 系统 定义 ， 驱 动工 程 师 必 须 按照 相应 的 架构 设计 驱动 ， 这 样 ， 驱 动 才 能 良好 地 整合 入 操作 系统 的 
内 核 中 。 


驱动 程序 负责 硬件 和 应 用 软件 之 间 的 沟通 ， 而 驱动 工程 师 则 负 贡 硬件 工程 师 和 应 用 软件 工程 师 之 间 的 
沟通 。 目 前 ， 随 着 通信 、 电 子 行业 的 迅速 发 展 ， 全 世界 每 天 都 会 生产 大 量 新 蕊 片 ， 设 计 大 量 新 电路 板 ， 也 
因此 ， 会 有 大 量 设备 张 动 需 要 开 及 。 这 些 张 动 或 运行 在 简单 的 单 任务 环境 中 ， 或 运行 在 VxWorks、 
Linux、Windows 等 多 任务 操作 系统 环境 中 ， 它 们 及 挥 看 不 可 华人 代 的 作用 。 


1.2 无 操作 系统 时 的 设备 驱动 


并 不 是 任何 一 个 计算 机 系统 都 一 定 要 有 操作 系统 ， 在 许多 情况 下 ， 操 作 系 统 都 不 必 存 在 。 对 于 功能 比 
壁 如 ASIC 内 部 、 公 交 车 的 刷卡 机 、 电 冰箱 、 微 波 炉 、 
通 等 ， 并 不 需要 多 任务 调度 、 文 件 系 统 、 内 存 管理 等 复杂 功能 ， 用 单 任务 架构 完全 可 以 恨 好 地 文 持 它们 的 
工作 。 一 个 无 限 循 环 中 夹杂 着 对 设备 中 断 的 检测 或 者 对 设备 的 轮 询 是 这 种 系统 中 软件 的 典型 架构 ， 如 代码 


较 单 一 、 控 制 并 不 复杂 的 系统 ， 


清单 1.1 所 示 。 


代码 清单 1.1 
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在 这 样 的 系统 中 ， 虽 然 不 存在 操作 系统 ， 但 是 设备 张 动 则 无 论 如 何 都 必须 人 存在。 一 般 情 况 下 ， 每 一 种 
设备 张 动 都 会 定义 为 一 个 软件 模块 ， 包 售 .h 文 件 和 .c 文 件 ， 前 者 定义 该 设备 张 动 的 数据 结构 并 声明 外 部 函 
数 ， 后 痢 进 行 驱动 的 其 体 实现 。 辟 如 ， 可 以 像 代码 清早 1.2 那 样 定义 一 个 串口 的 驱动 。 


代 但 请 单 1.2 无 操作 系统 迟 况 下 串口 的 驱动 


GO =]. 03 Cl 4B Go BO pP 


while (1) 


{ 


[KKK KK KKK KK KKK KKK KK KK KK 


if (seriallnt == 1) 
/* 有 串口 中 断 * / 
l 


ProcessSerialInt(); 


serialint = 0; 
) 
if (keyInt -- 1) 
/* 有 按键 中 断 */ 
{ 
ProcessKeyInt(); 
keyInt = 0; 
) 


status = CheckXXX(); 


Switch (status) 


*serial.hrff 


KK KK ck kk k k kk k kk KKK KK KKK / 


单 任务 软件 奥 型 架构 


/ * 
es 


/* 
/* 


extern void SerialInit(void); 


extern void SerialSend(const char buf*,int count); 


Dx 


Int main(int arge, char” argy) 
{ 


处 理 串口 中 断 */ 
中 断 标 志 变量 清 O */ 


处 理 按键 中 断 */ 
中 断 标 志 变量 清 0 */ 


extern void SerrvalRecv (char buf^,int count); 


[KKRKKK KKK KK KKK KK KKK KK KK 


*serial.cxf4t 
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TE 


初始 化 串口 */ 


void SeriallInit (void) 


{ 


} 


/* 


串口 发 送 */ 


void SerialSend(const char buf*,int count) 


{ 


} 


/* 


串口 接收 */ 


void. SerialRecv (char bur*,int count) 


fai FEES ALAM A) R 


23 | 

25  } 

26 /* 串口 中 断 处 理 函 数 */ 

27] void SerialIsr (void) 


Z9. Y 


30 seriallInt = 1; 
31 ] 


其 他 模块 想 要 使 用 这 个 设备 的 时 候 ， 只 需要 包含 设备 驱动 的 涉 文 件 serial.h， 然 后 调用 其 中 的 外 部 接口 
EE. WM EB ERIK “Hello World” 字 符 串 ， 使 用 语句 SerialSend (“Hello World”, 11) 即 可 。 


由 此 可 见 ， 在 没有 操作 系统 的 悄 况 下 ， 人 设备 驱动 的 接口 补 且 接 提 交 给 应 用 软件 工程 是， 应 用 软件 没有 
跨越 任何 层次 就 且 接 访问 设备 驱动 的 接口 。 驱 动 包含 的 接口 疯 数 也 与 便 件 的 功能 耳 接 吻合 ， 没 有 任何 附加 
功能 。 图 1.1 所 示 为 无 操作 系统 悄 况 下 便 件 、 设 备 驱 动 与 应 用 软件 的 关系 。 


应 用 软件 


设备 驱动 





图 1.1 无 操作 系统 时 便 件 、 设 备 驱 动 和 应 用 软件 的 关系 


有 的 工程 师 把 单 任务 系统 设计 成 了 如 图 1.2 所 示 的 结构 ， 即 设备 驱动 和 具体 的 应 用 软件 模块 之 间 平 
等 ， 驱 动 中 包含 了 业务 层面 上 的 处 理 ， 这 显然 是 不 合理 的 ， 不 符合 软件 设计 中 高 内 聚 、 低 耦合 的 要 求 。 


另 一 种 不 合理 的 设计 是 直接 在 应 用 中 操作 硬件 的 寄存 器 ， 而 不 单独 设计 驱动 模块 ， 如 图 1.3 所 示 。 这 
种 设计 意味 着 系统 中 不 存在 或 未 能 充分 利用 可 重用 的 驱动 代码 。 





图 1.3 ”应 用 直接 访问 硬件 的 不 合理 设计 


1.3. 有 操作 系统 时 的 设备 驱动 


在 1.2 方 中 我 们 看 到 一 个 清晰 的 设备 驱动 ， 它 直接 运行 在 价 件 之 上 ， 丰 与 任何 操作 系统 天 联 。 当 系统 
ORRERA, UL UAE ER? 
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打交道 。 


其 次 ， 我 们 还 需要 将 驱动 融入 内 核 。 为 了 实现 这 种 融合 ， 必 须 在 所 有 设备 的 张 动 中 设计 面 问 操作 系统 
由 核 的 接口 ， 这 样 的 接口 由 操作 系统 规定 ， 对 一 闫 变 备 而 言 结构 一 致 ， 独 立 于 共 体 的 说 备 。 


由 此 可 见 ， 当 系统 中 存在 操作 系统 的 时 候 ， 了 驱动 变 成 了 连接 便 件 和 内 核 的 桥 染 。 如 图 1.4 所 示 ， 操 作 
系统 的 存在 势必 要 求 设备 驱动 附加 更 多 的 代码 和 功能 ， 把 单一 的 “驱使 硬件 说 备 行动 ” 变 成 了 操作 系统 内 与 
便 件 交互 的 模块 ， 它 对 外 呈现 为 操作 系统 的 API， 不 再 给 应 用 软件 工程 师 直 接 提 供 接口 。 

用 户 应 用 程序 


操作 系统 API 


操作 系统 


设备 驱动 中 独立 于 设备 的 接口 


没 备 驱动 中 的 硬件 操作 





图 1.4” 便 件 、 驱 动 、 操 作 系 统 和 应 用 程序 的 关系 


那么 我 们 要 问 ， 有 了 操作 系统 之 后 ， 驱 动 反 而 变 得 复 森 ， 那 要 操作 系统 干什么 ? 


自 完 ， 一 个 复 洒 的 软件 系统 需要 处 理 多 个 并 友 的 任务 ， 没 有 操作 系统 ， 想 完成 多 任务 并 友 是 很 困难 
的 。 


其 次 ， 操 作 系 统 给 我 们 提供 内 存 管理 机 制 。 一 个 典型 的 例子 是 ， 对 于 多 数 合 MMU 的 32 位 处 理 需 而 
言 ，Windows、Linux 等 操作 系统 可 以 让 每 个 进程 都 可 以 独立 地 访问 4GB 的 内 存 空 间 。 
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给 出 的 独立 于 设备 的 接口 而 设计 时 ， 那 么 ， 应 用 程序 将 可 使 用 统一 的 系统 调用 接口 来 访问 各 种 设备 。 对 于 
关 UNIX 的 VxWorks、Linux 等 操作 系统 而 言 ， 当 应 用 程序 通过 write O ~ read O SRA SOCEM VJ 
问 各 种 字符 设备 和 块 设备 ， 而 不 论 设 备 的 具体 类 型 和 工作 方式 ， 那 将 是 多 么 便利 。 


1.4 Linux 设 备 驱 动 


14.1 ”设备 的 分 类 及 特点 


计算 机 系统 的 硬件 主要 由 CPU、 存 储 器 和 外 设 组 成 。 随 着 IC 制 作 工艺 的 发 展 ， 目 前 ， 蕊 片 的 集成 度 越 
来 越 高 ， 往 往 在 CPU 内 部 就 集成 了 存储 器 和 外 设 适 配器 。 璧 如， 相当 多 的 ARM、PowerPC、MIPS 等 处 理 
器 都 集成 了 UART、I*C 控 制 器 、SPI 控 制 器 、USB 控 制 器 、SDRAM 控 制 嚣 等， 有 的 处 理 器 还 集成 了 
GPU (ACME aS) 、 视 频 编 解码 器 等 。 


驱动 针对 的 对 象 是 存储 器 和 外 设 〈 包 括 CPU 内 部 集成 的 存储 器 和 外 设 ) ， 而 不 是 针对 CPU 内 核 
Linux 将 存储 器 和 外 设 分 为 3 个 基础 大 类 。 

字符 设备 。 

块 设备 。 

网 络 设备 。 


字符 设备 指 那 些 必须 以 串 行 顺序 依 炊 进行 访问 的 设备 ， 如 触 抱 屏 、 磁 市 驱动 磊 、 女 标 守 。 块 设备 可 以 
按 任 意 顺 序 进 行 访 问 ， 以 块 为 单位 进行 操作 ， 如 人 硬盘、eMMC 等 。 字 符 设 备 和 块 设备 的 驱动 设计 有 出 很 大 
WAS, (He TTA INS, Ease ACH ASH BRE? open O ~ close O ~ read O 、 


write ©) 等 进行 访问 。 


在 Linux 系 统 中 ， 网 络 设 备 面 癌 数 据 包 的 接收 和 肥大 而 设计 ， 它 并 不 倾 问 于 对 应 于 文件 系统 的 季 氮 。 
内 核 与 网 络 设备 的 通信 与 内 核 和 字符 设备 、 网 络 设备 的 通信 方式 完全 人 不同 ， 前 者 主要 还 是 使 用 套 接 字 接 
ur 


1.4.2. Linux & ka) S ES EE RAI KA 


如 图 1.5 所 示 ， 除 网 络 设备 外 ， 字 符 设 备 与 块 设备 都 被 映射 到 Linux 文 件 系 统 的 文件 和 目录 ， 通 过 文件 
系统 的 系统 调用 接口 open O ~ write © . read () . close O 等 即 可 访问 字符 设备 和 块 设 备 。 所 有 字符 
设备 和 块 设备 都 统一 呈现 给 用 户 。Linux 的 块 设备 有 两 种 访问 方法 : 一 种 是 类 似 dd 命令 对 应 的 原始 块 设 
备 ， 如 “dev/sdb1”* 等 ， 男 外 一 种 方法 是 在 块 设备 上 建 六 FAT、EXT4、BTRFS 等 文件 系统 ， 然 后 以 文件 路 径 
如 “%home/barryhello.txt” 的 形式 进行 访问 。 在 Linux 中 ， 针 对 NOR、NAND 等 提供 了 独立 的 内 存 技术 设备 
(Memory Technology Device, MTD) 子 系统 ， 其 上 运行 YAFFS2、JFFS2、UBIFS 等 具备 探 除 和 人 负载 均衡 
能 力 的 文件 系统 。 针 对 磁盘 或 者 Flash 设 备 的 FAT、EXT4、YAFFS2、JFFS2、UBIFS 等 文件 系统 定义 了 文 
件 和 目录 在 存储 介质 上 的 组 织 。 而 Linux 的 虚拟 文件 系统 则 统一 对 它们 进行 了 抽象 。 


Linux 应 用 程序 
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图 1.5 Linuxix oka E; 1 EEA KAR 





应 用 程序 可 以 使 用 Linux 的 系统 调用 接口 编程 ， 但 也 可 使 用 C 库 函数 ， 出 于 代 人 码 可 移植 性 的 目的 ， 后 者 
更 值得 推荐 。C 库 函数 本 映 也 通过 系统 调用 接口 而 实现 ， 如 C 库 图 数 fobpen () ~ fwrite ©) ~ fread OO 、 
fclose O 分 别 会 调用 操作 系统 的 API open O ~ write © ~ read © ~ close © 。 


1.4.3 Linux ££ 4& JJ] iN Bo. XE S 


Linux 设 备 张 动 的 学 习 是 一 项 海 索 的 工程 ， 包 含 如 下 重点 、 难 点 。 


编写 Linux 设 备 驱 动 要 求 工 程 师 有 非常 好 的 硬件 基础 ， 懂 得 SRAM、Flash、SDRAM、 人 磁盘 的 读 写 方 
式 ，UART、IC、USB 等 设备 的 接口 以 及 轮 询 、 中 断 、DMA 的 原理 ，PCI 总 线 的 工作 方式 以 及 CPU 的 内 存 
管理 单元 (MMU) 等 。 


编号 Linux 设 备 驱 动 要 求 工程 师 有 有 非 第 好 的 C 语 言 基 础 ， 能 灵活 地 运用 C 语 言 的 结构 体 、 指 秆 、 函 数 指 
针 及 内 存 动态 申请 和 和 释放 等 。 


编写 Linux 设 备 驱 动 要 求 工 程 师 有 一 定 的 Linux 内 核 基 础 ， 虽 然 并 不 要 求 工 程 师 对 内 核 各 个 部 分 有 深入 
的 研究 ， 但 人 至少 要 明日 驱动 与 内 核 的 搁 口 。 尤 其 是 对 于 块 设备 、 网 络 说 备 、Flash 讽 备 、 串 口 设 备 等 复杂 
设备 ， 内 核定 义 的 驱动 体系 结构 本 号 就 非常 复 洒 。 


编号 Linux 设 备 驱 动 要 求 工 程 师 有 非 第 好 的 多 任务 并 友 控 制 和 同步 的 基础 ， 因 为 在 驱动 中 会 大 量 使 用 
Aes. BR. fas, SENIER BW. 


PRAWEJ AER A USE. AOR ET AE iS EN 2 STE A o EE ER, AN 
Fil 2 CEA DY. E EAT VERI o 


动手 实践 永远 是 学 习 任 何 软件 开发 的 最 好 方法 ， 和 学 习 Linux 设 备 驱 动 也 不 例外 。 因 些 ， 本 书 使 用 的 是 
通过 QEMU 模 拟 的 ARM vexpress 电 路 板 ， 本 书 中 的 所 有 实例 均 可 在 该 “电路 板 ” 上 直接 执行 。 


阅读 经 典 书 籍 和 参与 Linux 和 社区 的 讨论 也 是 非常 好 的 学 习 方 法 。Linux 内 核 源 代 人 码 中 包 食 了 一 个 
Documentation 上 有 目录， 其 中 包含 了 一 批 内 核 设 计 文档 ， 全 部 是 文本 文件 。 人 很 次 憾 ， 这 些 文档 的 组 织 不 太 
好 ， 内 容 也 不 够 细致 。 


尝 习 Linux 设 备 驱 动 的 一 个 注意 事项 是 要 避免 管 中 蜂 腥 、 只 见 树木 不 见 和 森林 ， 因 为 各 类 Linux 设 备 驱 动 
都 从 属于 一 个 Linux 设 备 驱 动 的 架构 ， 单 纯 而 片面 地 学 习 几 个 函数 、 几 个 数据 结构 是 不 可 能 理 清 驱动 中 各 
组 成 部 分 之 间 的 关系 的 。 因 此 ，Linux 驱 动 的 分 析 方 法 是 点 面 结 合 ， 将 对 函数 和 数据 结构 的 理解 放 在 整体 
染 构 的 背景 之 中 。 这 是 本 书 各 半 市 讲解 驱动 的 方法 。 


15 _ Linux 设备 豫 动 的 开发 环境 构建 
1.5.1] PC 上 的 Linux 环 境 


本 书 配 套 资源 近 供 了 一 个 Ubuntu 的 VirtualBox 庶 拟 机 映像 ， 访 虚拟 机 上 安 肥 了 本 书 涉 及 的 所 有 源 代 
但、 工具 链 和 各 种 开 肥 工具 ， 谈 者 无 顷 再 安 冯 和 配置 任何 环境 。 该 虚拟 机 可 运行 于 Windows、Ubuntu 等 操 
作 系 统 中 ， 运 行 方 法 如 下 。 


1) 安装 VirtualBox。 

如 果 主 机 为 Windows 系 统 ， 请 安装 VirtualBox WIN|KA: 

Virtual Box-4.3.20-96997-Win.exe 

TA ENLAUbuntu Rt, wa 48 VirtualBox DEB 版 本 : 
virtualbox-4.3 4.3.20-96996~Ubuntu~precise 1386.deb 

2) "JE VirtualBox extension. 

Oracle VM VirtualBox Extension Pack-4.3.20-96996.vbox-extpack 
3) 准备 虚拟 机 镜像 。 

解压 Baohua Linux.vmdk.rar 为 Baohua Linux.vmdk 

4) 新 建 虚拟 机 。 


i511 58127 222€ HJ Oracle VM VirtualBox, $i E CN) ”图 标 创建 虚拟 机 ,， “类 型 ”选择 Linux,， “版 
本 "选择 Ubuntu (32bit) ， 名 称 可 以 取 名 为 “linux-trainine”， 如 图 1.6 所 示 。 
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虚拟 电脑 名 称 和 系统 类 型 


诗 迁 扼 新 虚拟 所 脑 的 撞 述 名 称 及 要 交 莹 的 操作 系 纺 类 型 。 北 名 称 将 局 于 款 
BERANE. 























1.6 新 建 Ubuntu 32 位 虚拟 机 


单 击 “ 下 一 步 ON) ”按钮 ， 设 置 内 存 ， 如 图 1.7 所 示 。 


$ Oracle VM VirtualBox 管理 器 cji X% 
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图 1.7 设置 虚拟 机 的 内 存 


继续 单 击 “ 下 一 步 (N) ”按钮 。 设 置 价 盘 ， 注 意 选 择 “ 使 用 已 有 的 虚拟 便 盘 文件 CUO eee, E 
拟人 硬 检 文件 是 第 3 步 解 压 之 后 的 “Baohua Linux.vmdk”， 如 图 1.8 所 示 。 


8g Oracle VM VirtualBox 管理 器 cas p 
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虚拟 硬盘 


你 可 以 秘 加 喜 扳 现 得 到 新 成 拟 电 脑 中 。 新 建 一 个 盐 拟 现 坦 文件 或 从 列表 或 
ELA Xie (em A. 


















如 果 想 更 灵活 过 医 蛙 虚报 吏 盘 ， 也 可 以 路 过 这 一 步 ， 在 创建 虚拟 里 驴 之 后 
ERREFE. 
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图 1.8 ”设置 虚拟 机 便 盘 镜像 


Windows DirectS 
ICH AC97 


最 后 ， 单 击 “ 创 建 ? 按 钮 以 完成 虚拟 机 的 构建 工作 。 
5) 局 动 虚拟 机 。 


在 VirtualBox 上 选择 先前 创建 的 “linux-training” 虚 拟 机 并 蛙 击 “局 动 ”图 标 ， 如 图 1.9 所 示 。 








SH Oracle VM VirtualBox 管理 器 —— 
pt. 
$ AHIA] 
FAN EG) ‘of 
Iz lddd3 BD ex - 


mg BA 


FR linux-training 
iRÍEXÉ: Ubuntu (32 bit) 





Zw 512MB 


Baar: WH, tH, SBE 
Spm: VI-x/AMD-V, #247, PAE/NX 











nta: Windows DirectSound 
ERBA: ICH AC97 





1.9 ”启动 虚拟 机 


虚拟 机 的 账号 和 密码 都 是 “baohua”， 如 果 要 执行 特权 命令 ，sudo 密 人 码 也 是 “baohua”， 如 图 1.10 所 示 。 











[$7 linux-training [正在 运行 ] - Oracle VM VirtualBox 
ih] WS Wik BED 
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图 1.10 ”虚拟 机 登录 界面 


本 书 配 大 的 Ubuntu 版 本 是 14.04， 但 是 内 核 版 本 升级 到 了 4.0-rcl1， 以 保证 和 本 书 讲解 内 容 的 版 本 一 
BN 


注意 事项 : 


如 果 发 现 VirtualBox 个 稳定 或 者 五 莱 容 性 问题 (经 过 测试 ， 有 极 少 数 PC 和 存在 此 问题 ) ， 也 可 以 安 状 
VMware (Baohua Linux.vmdk 也 是 文 持 VMware 的 ) 。 


如 果 光 盘 不 小 心 损坏 ， 可 以 从 链接 : http://pan.baidu.com/s/1c08gzi4. (密码 为 puki) 处 提取 网 盘 上 的 文 
件 。 


1.5.2 ”QEMU 实 验 平 台 


QEMU 模 拟 了 vexpress Cortex-A9SMP 四 核 处 理 器 开发 板 ， 板 上 集成 了 Flash、SD、LIC、LCD 等 。ARM 
公司 的 Versatile Express 系 列 开 友 平 台所 供 了 超 快 的 环境 ， 用 于 为 下 一 代 片 上 系统 设计 方案 建立 原型 ， 比 如 
Cortex-A9Quad Core. 


fEhttp://www.arm.com/zh/products/tools/development-boards/versatile-express/index.php_E n] VA A 3I 58 ze Se 
T Versatile Express KIIF RF EKAT . 


本 书 配 侠 虚 拟 机 映像 中 已 经 安装 好 了 工具 链 ， 包 含 arm-linux-gnueabih 人 gcc 和 arm-linux-gnueabi-gcc 两 个 
版 本 。 


Linux 内 核 在 /home/baohua/develop/linux 目 录 中 ， 在 该 目录 下 和 耐 ， 包 含 内 核 编 详 脚本 : 


export ARCH=arm 

export CROSS COMPILE-arm-linux-gnueabi- 
make LDDD3 vexpress defconfig 

make zImage -j8 

make modules -j8 

make dtbs 

cp arch/arm/boot/zlImage extra/ 

cp arch/arm/boot/dts/*ca9.dtb extra/ 
Cp .config extra/ 


由 此 可 见 ， 我 们 用 的 默认 内 核 配 置 文件 是 LDDD3 vexpress defconfig。 上 述 脚本 也 会 日 动 将 编译 好 的 
ZImage 和 dtbs 复 制 到 extra 目 录 中 。 


extra 目 录 下 的 vexpress.img 古 一 张 虚 拟 的 SD 卡 ， 将 作为 根 文件 系统 的 存放 介质 。 它 能 以 loop 的 形式 被 
挂 载 (mount ， 璧 如 在 /home/baohua/developy/linux 目 录 下 运行 。 


sudo mount -o loop,offset=S ((2048*512)) extra/vexpress.img extra/img 


可 以 把 vexpress.img 的 根 文 件 系统 分 区 挂 载 到 extra/img， 这 样 我 们 可 以 在 目标 板 的 根 文 件 系统 中 放置 我 


们 豆 欢 的 内 容 。 


/home/baohua/develop/linux 目 录 下 面 有 个 编译 模块 的 脚本 module.sh， 它 会 自动 编译 内 核 模块 并 安装 到 


vexpress.img 中 ， 其 内 容 如 下 : 


make ARCH-arm CROSS COMPILE-arm-linux-gnueabi- modules 

sudo mount -o loop,offset=S ((2048*512)) extra/vexpress.img extra/img 
sudo make ARCH-arm modules install INSTALL MOD PATH-extra/img 

sudo umount extra/img 


运行 extra 下 面 的 run-nolcd.sh 可 以 司 动 一 个 不 台 LCD 的 ARM Linux. run-noled.shHf] Pj 4 7Jqemu-system- 


arm-nographic-sd vexpress.img-M vexpress-a9-m 512M-kernel zImage-dtb vexpress-v2p-ca9.dtb-smp 4- 


append" init=/linuxrc root=/dev/mmcblkOp1rw rootwait earlyprintk console=ttyAMA0"2>/devnull， 运 行 结果 为 : 


baohua8baohua-VirtualBox:-/develop/linux/extra$ ./run-nolcd.sh 
Uncompressing Linux... done, booting the kernel. 
Booting Linux on physical CPU 有 XU 
Initializing Cgroup Subsys OCDUSOLt 
Linux version 3.16.0+ (baohua@baohua-VirtualBox) (gcc version 4.7.3 (Ubuntu/ 
Linaro 4.7.3-12ubuntul) ) #3 SMP Mon Dec 1 16:53:04 CST 2014 
CPU: ARMV7 Processor [410fc090] revision 0 (ARMv7), cr=10c53c7d 
CPU: PIPT / VIPT nonaliasing data cache, VIPT aliasing instruction cache 
Machine model: V2P-CA9 
bootconsole [earlycon0] enabled 
Memory policy: Data cache writealloc 
PERCPU: Embedded 7 pages/cpu @9fbcd000 s7232 r8192 d13248 u32768 
Built 1 zonelists in Zone order, mobility grouping on. Total pages: 130048 
Kernel command line: init=/linuxrc root-/dev/mmcblkO0pl rw rootwait earlyprintk 
console-ttyAMAO 
PID hash table entries: 2048 (order: 1, 8192 bytes) 
Dentry cache hash table entries: 65536 (order: 6, 262144 bytes) 
Inode-cache hash table entries: 32768 (order: 5, 131072 bytes) 
Memory: 513088K/524288K available (4583K kernel code, 188K rwdata, 1292K rodata, 
247K init, 149K bss, 11200K reserved) 
Virtual kernel memory layout: 
Vector + OxXEEETOUOD = DEXFTrrrrlo00 
fixmap : Oxffc00000 = Oxffe00000 
vmalloc : 0xa0800000 - Oxff000000 
lowmem : 0x80000000 - 0xa0000000 512 MB 
modules + 0x7f£000000 = 0x80000000 16 MB 


( 4 kB) 
( ) 
( ) 
( ) 
( ) 
‘text s 0xo0009000 = OxoU05CcoODZcC (5877 kB) 
( ) 
( ) 
( ) 
O 4 


2048 kB 
1512. MB 


sinit + 0x9805060000 = O0x80603c40 248 kB 
.data : 0x80604000 - 0x80633100 189 kB 
.bss : 0x80633108 - 0x806588a8 150 kB 
SLUB: HWalign=64, Order=0-3, MinObjects=0, CPUs 
Hierarchical RCU implementation. 
RCU restricting CPUS from NR CPUS=8 to nr opu 1d09-4. 
RCU: Adjusting geometry for rcu fanout lear-l16, nr cpu ids-4 
NR IRBOSTIO nr SS 16 
L2C: platform modifies aux control register: 0x02020000 -> 0x02420000 
L2C: device tree omits to specify unified cache 
t20} DT/ platform Modifies. ux Control register: 0x02020000 => 0x02420000 
L2C-310 enabling early BRESP for Cortex-A9 
L2C-310. full Line of zeros enabled for Cortex-Ag 
L2C-310 dynamic clock gating disabled, standby mode disabled 
L2C-310 cache controller enabled, 8 ways, 128 kB 
L2C-310: CACHE ID 0x410000c8, AUX CTRL 0x46420001 
Smp. cw: -Clock not Sound 2 
sched clock: 32 bits at 24MHz, resolution 41ns$, wraps every 1790956969942ns$ 
Console: colour dummy device 80x30. 


, Nodes-1 


运行 extra 下 面 的 run-lcd.sh 可 以 启动 一 个 合 LCD 的 ARM Linux， 运 行 结 果 如 图 1.11 所 示 。 


sp1760 isp1760: USB bus 1 deregistered 
sp1?760: Failed to register the HCD device 
sbcore: registered new interface driver usb-storage 
ousedeuv: PS/Z mouse device common for all mice 
tc—p1031 mb:rtc: rtc core: registered pl031 as rtce 
mci-pli8x mb:mmci: mmcO: PL181 manf 41 revO at 0x10005000 irq 41,42 (pio) 
mci-plittx mbimmci: DMA channels RX none, TX none 
cdtrig-cpu: registered to indicate activity on CPUs 
sbeore: registered new interface driver usbhid 
sbhid: USB HID core driver 
nput: AT Rau Set Z keyboard as /devices/nmb:kniO/serioO/input~inputo 
mcO: host does not support reading read-only switch. assuming write-enable. 
mcO: new SD card at address 4567 
mcblkO: mmc0:4567 QEMU' 48.0 MiB 
aci-plO41 mb:aaci: ARM AC'97 Interface PLO41 reuO at 0x10004000, irq 43 
aci-—p1041 mb:aaci: FIFO 512 entries 
CP: cubic registered 
ET: Registered protocol family 1? 
pnet: Installing 9P2000 support 
mmcblkO: pi 
tc-p1031 mb:rtc: setting system clock to 2015-02-23 03:30:16 UTC (1424662216) 
LSA device list: 
nc’ 9? Interface PLO41 rcuO at 0x10004000, irq 13 

.; ImExPS72 Generic Explorer Mouse as /devices/mb:kmiisseriotl,inputsinput2 
XT2-fs (mmeblkOpi): warning: mounting unchecked fs, running e2fsck is recommended 
FS: Mounted root (extZz filesystem) on device 179:1. 
evtmpfs: mounted 
reeing unused kernel memory: 244K jo5c6000 80603000 ) 
andom: nonblocking pool is initialized 
elcome to 
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图 1.11 4&LCDHJARM Linux 
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例 ， 璧 如 人 home/baohua/developytraining/kernel 中 就 包含 了 globalfife、globalmem 等 ， 这 些 目录 的 源 代 码 都 包 
含 了 Makefile， 在 其 中 直接 make， 生 成 的 .ko 可 以 直接 在 Ubuntu 上 运行 。 


1.5.3” 源 代码 阅读 和 编辑 


源 代 人 码 是 学 习 Linux 的 权威 资料 ， 在 Windows 上 阅 全 Linux 产 代 公 的 最 佳 工具 是 Source Insight， 在 其 中 
建立 一 个 工程 ， 并 将 Linux 的 所 有 源 代 人 码 加 入 该 工程 ， 同 步 这 个 工程 之 后 ， 我 们 将 能 非常 便捷 地 在 代码 之 
则 进行 天 联 阅 读 ， 如 图 1.12 所 示 。 

类 似 http://lxr.free-electrons.com/、http://lxr.oss.org.cn/ 这 样 的 网 站 提供 了 Linux 内 核 源 代码 的 交叉 索引 ， 
在 其 中 输入 Linux 内 核 中 的 冰 数 、 数 据 结 构 或 变量 的 名 称 束 可 以 直接 得 到 以 超 链接 形式 给 出 的 定义 和 引用 
它 的 所 有 位 置 。 还 有 一 些 网 站 也 提供 了 Linux 内 核 中 函数 、 变 量 和 数据 结构 的 搜索 功能 ， 在 google 中 搜 


“linux identifier search" n] (5. 


















Qlinux-2.6. 16\drivers\i2e)] .21Bl x 
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JOecEBBB 6\/x=e EXE PRAEBET sm e-cp3s-oms!i 
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a rum head it 12c-amd8111.c (linux-2.6.16\drivers\i2c\busses) 10640 2006-3-20 

= n ect i2c- - =e} ll2c-au1550.c [inuw2616vdivers ic \busses] 9401 2006-320 

e 12c-a eid a \i2c\busses] 

a down(Sadap- ec-COre.C Uinux-e.b bsdi Mec] 

al list for each A I2c-dev.c [inu 2.6 16\diivers\i2c] 13663 

> ( i 

@ bc c client = list en ||I2c-dev.h (inux-2.6.16NncludeMinux) 1515 2006-3-20 

pac cli if C try. modu! ll2c ke (linus-2.6. 16 driv d 8554 2006-3-20 

E ize ntinue;  ||l2c-frodo.c (linux-2 6. 16NdriversNZcNbusses] 1808 2006-3-20 

E ac m if (NULL me 12c dida .c flinux-2,6.16\driv wi bur s) 4527 2006-320 

E E up(&ad I2c-4801.c flinux-2.6.16\dn vers\i2c Nbusses) 16446 2006-3-20 

& [su chent- mr 12¢4810.¢ a -2.6.16\drivers\i2c\busses) 7430  2006-3-20 

zl 2c. ; down(Sad Lim. c [linux-2.6.16\drivers\i2c\busses} 20244 — 2006-320 

a 12cj ich (nux 2.6.16\div ers\i2c\busses) 2700 2006-3-20 
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i2c | clients | command AT Function in [2c-core.c [ 2L a [18 lines] 日 | -iDix 


a VA eC EN (struct i2=_adapter “adap, unsigned int cmd, void *arg) j~ 
{ — 
ruct li x s se “tem; 
po uct j lient “client; 可 | 
à] «C Et 2 A» db ES 
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|1.12 ”在 Source Insight 中 阅读 Linux 源 代码 


H, Hk 


fE Linux EPLE [x] 1582 $8 Linux US R3 Ys Ay 3X xe vime-escopeBV A vimtctags, vim — ^T AS 48 AE 
而 cscope 和 ctags 则 可 建立 代码 索引 ， 建 议 恋 者 尽快 使 用 基于 文本 界面 全 键盘 操作 的 vim 编 辑 右 ， 如 图 1.13 上 所 


小。 


LX TTE baohua@baohua-VirtualBox: ~/develop/linux 
ile Edit View Search Terminal Tabs Help 


* Copyright (C) 2014 Barry Song (baohua@kernel.org) 
* 

* Licensed under GPLv2 or Later. 

af 4 


9 #include <linux/module.h> 
10 #include <linux/types.h> 
11 #1nclude <LLnmUX/Sched .h> 

<linux/init.h> 


14 #include <Linux/slab.h> 

15 Binclude <Linux/poll.h> 

16 

17 #define GLOBALFIFO SIZE 0x1000 
18 #define FIFO CLEAR 0x1 

19 #define GLOBALFTFO MAJOR 249 


PAi] 
static int Eats obalfifo nalor = GLOBALFIFO_MAJOR; 
ul am(globaLlfi fo | major, int, S IRUGO) 


23 
struct dim dem Ht fo_dev di. 
25 cdev 


ee ed qim curre 


t len 
siue sp z en cLOBAL FIFO. SIZE]; 
sake 


sous 
sr bed t r _wait; 
wait queue head t w_wait; 





名 1.13 ”vim 编辑 器 


1.6 设备 驱动 Hello World: LEDJEKZJJ 


1.6.1 无 操作 系统 时 的 LED 驰 动 


在 仍 入 式 系统 的 设计 中 ，LED 一 般 直接 由 CPU 的 GPIO (通用 可 编程 WO〉 口 控制 。GPIO 一 般 由 两 组 寄 
存 器 控制 ， 即 一 组 控制 寄存 器 和 一 组 数据 寄存 器 。 控 制 襟 存 器 可 设置 GPIO 口 的 工作 方式 为 输入 或 者 输 
出 。 当 引 脚 被 设置 为 输出 时 ， 同 数据 寄存 器 的 对 应 位 写 入 1 和 0 会 分 别 在 引 脚 上 产生 高 电 平和 低 电 平 ; 2 
引 脚 设置 为 输入 时 ， 读 取 数 据 寄 存 占 的 对 应 位 可 获得 引 脚 上 的 电 平 为 高 或 低 。 


在 本 例子 中 ， 我 们 屏蔽 具体 CPU 的 差异 ， 假 设 在 GPIO REG CTRL 物 理 地 址 中 控制 寄存 器 处 的 第 n 位 
写 入 1 可 设置 GPIO 口 为 输出 ， 在 地 址 GPIO REG DATIA 物 理 地 址 中 数据 寄存 器 的 第 n 位 写 入 1 或 0 可 在 引 脚 
上 产生 高 或 低 电 平 ， 则 在 无 操作 系统 的 情况 下 ， 设 备 驱动 见 代码 清音 1.3。 


代 但 清单 1.3 ”无 操作 系统 时 的 LED 了 驱动 


L 4define reg gpio ctrl *(volatile ant *)(ToVirtual(GPIO REG CTRL) ) 
2 #define reg gpio data *(volatile int *) (ToVirtual(GPIO REG DATA) ) 
3 /* 初始 化 LED */ 

4 void LightInit(void) 

9" d 

6 reg gpio ctrl |= (1 << n); /* ®BGPIOAMH */ 

7} 

8 


9 /* ARLED */ 
10 void LightOn (void) 
Ll. 4 
12 reg gpio data |= (1 << n); /* 在 GPIO 上 输出 高 电 平 */ 
13 ) 


LS f* ALED */ 

16 void LightOff (void) 

17 { 

18 reg gpio data &= ~(1 << n); /* 在 GPIO 上 输出 低 电 平 */ 
} 


上 述 程序 中 的 Lightmit © ~ LightOn © ~ LightOff O 都 直接 作为 驱动 提供 给 应 用 程序 的 外 部 接口 
函数 。 程 序 中 ToVirtual O 的 作用 是 当 系 统 局 动 了 硬件 MMU 之 后 ， 根 据 物理 地 址 和 虚拟 地 址 的 映射 天 
系 ， 将 寄存 器 的 物理 地 址 转化 为 虚拟 地 址 。 


1.6.2 ”Linux 下 的 LED 了 驱动 


在 Linux 下 ， 可 以 使 用 字符 设备 驱动 的 框架 来 编号 对 应 于 代码 清单 1.3 的 LED 设 备 驱动 〈 这 里 仅仅 是 为 
了 方便 讲解 ， 内 核 中 实际 实现 了 一 个 提供 sysfs 节 点 的 GPIO LED3K2), fT drivers/leds/leds-gpio.cP) , 8 
作 便 件 的 Lightmit © ~ LightOn O 、LightO 企 () 函数 仍然 需要 ， 但 是 ， 遭 循 Linux 编 程 的 命名 习惯 ， 重 
新 将 其 命名 为 light init © ~ light on © ~ light off O 。 这 些 函 数 将 被 LED 设 备 驱 动 中 独立 于 设备 并 针 
对 内 核 的 接口 进行 调用 ， 代 码 清单 1.4 给 出 了 Linux 下 的 LED 驱 动 ， 此 时 读者 并 不 需要 能 读 懂 这 些 代 码 。 


代码 清单 1.4  Linuxf&fE 2&2 RAY LEDSKS) 


#include .../* 包含 内 核 中 的 多 个 头 文件 */ 
/* 设备 结构 体 */ 
struct Ligat dev 4 
struct cdev cdev; /* 字符 设备 Cdev 结 构 体 */ 
unsigned char vaule; /* 工 己 D 亮 时 为 1， 熄 灭 时 为 0， 用 户 可 读 写 此 值 */ 





); 
struct light dev *light devp; 
int light major = LIGHT MAJOR; 
9 MODULE AUTHOR("Barry Song <2lcnbao@gmail.com>"); 
10 MODULE LICENSE ("Dual BSD/GPL"); 
11 /* 打开 和 关闭 函数 */ 
Eee 


Ona OF WN EF 


13. 4 

14 Struct light dev “dev; 

15 /* 获得 设备 结构 体 指针 */ 

16 dey = container oi (inode--1 Cder; struct Ligii dev; cdev); 
17 /* 让 设备 结构 体 作为 设备 的 私有 信息 */ 

18 lllpe5prrvate data = dev; 

19 return 0; 

20 + 

Zl int Light relesseistruco inode. *1noOs, struct tile FELIP) 

22 1 

as return: O; 

24 } 

25 /* 读 写 设备 + 可 以 不 需要 */ 

20 BOLZG © Ligii regoistruct file “tile, Char . user “OnLy, Size T Coun, 
21 Loiti t “I pos) 

28 { 

29 struct light dev *dev = filp->private data; /* 获得 设备 结构 体 */ 
30 LI (Copy to user (bur, «(dev=-value), 1)») 

31 return  -EFAULT; 

32 return: 15 

oo. s 

34 SSIZe L Light weiee (Struct. file *filp; Const Char User *Dui, Slize C Count, 
259 Loff t #1 pos) 

36. 1 

2 struct Ligne dev dev = [111p private daca; 

38 IL {COPY Irom userie(deveovalus), Dur. 17) 

39 return  -HEFAULT; 

40 /* 根据 写 入 的 值 点 亮 和 熄灭 LED */ 

41 if (dev->value == 1) 

42 lnc OM.) 

43 else 

44 light oLb07 

45 return 1$ 

46 } 


47 /* ioctlmA/ */ 
48 int light ioctl(struct inode *inode, struct file *filp, unsigned int cmd, 


49 unsigned long arg) 
50 { 

si Suruce Light dev *devy = fl privare data; 
52 Switch (cmd) { 

93 case LIGHT ON: 

54 dev-»value = 1; 
bo Laois QI 

56 break; 

Ou Gase LIGHT OFF; 

58 dev->value = 0; 
59 下 

60 break; 

61 default: 


62 /* 不 能 支持 的 命令 * / 


63 return  -ENOTTY; 


64 ) 

65 return 0; 

66 } 

o7 Struct file operations. Laght. Tops: =-{ 
68 .owner = THIS MODULE, 

o9 Lead = Jigit Tedd, 

70 write = Light write, 

gai OCT. = Light, IOC LL; 

Ja Open = LINL Open, 

73 phe Cace = 11000, relegse, 
Ja Fr 


75 /* 设置 字符 设备 cdev 结 构 体 */ 
T6 Static volo Light setup ocdeví(struct Lignit dev “dev, int 1ndex) 


ce 4 

78 int err, devno = MKDEV (Light major, index); 

79 cdev 1inazt(&dev-»cdev, &lrght fops); 

80 deve-»cdev.owner = THIS MODULE; 

81 dev=>cdev.0ps = &lrght tops; 

82 err = Cdev add(&dev-»cdev, devno, 1); 

83 if (err) 

84 Printk( KERN NOTICE "Error vd adding LED<d", err, index); 
oo F 


86 /* 模块 加 载 函 数 */ 
or ant, Light Tnit(YeLdQ) 





88 { 
89 int result; 
90 dev © dev = MKDEV (light major, 0)»; 
91 /* 申请 字符 设备 号 */ 
OZ if (light major) 
93 result = register chroev reglon(devy, L; “LED"); 
94 else { 
95 result = alloo-ohrdev regrion(sdev, D, i, “LED"); 
96 light major = MAJOR (dev); 
97 } 
98 if (result < QO) 
99 return result: 
100 /* 分 配 设备 结构 体 的 内 存 */ 
101 light devp = kmalloc(sizeof(struct light dev), GEP KERNEL)? 
102 LE (Light devp) 4 
159 result =  -ENOMEM; 
104 goto Tani malloc; 
1:0 } 
106 imnemsetilrgNt devp, OQ, SLzeori(tstruct light dèv); 
107 light. setup cdey( light. devp, D); 
109 Light gpro niti); 
109 return 0 
110 fail malloc: 
111 unrtegrster- chrdev regron(dev, Light devpl; 
112 returni result; 
lio jJ 


114 /* 模块 卸载 函数 */ 
115 vöid light cleanup (void) 


116 d 

117 cdev del(&light devp-»cdev);  /* 删除 字符 设备 结构 体 */ 

118 kfree(light devp); /* 释放 在 light init 中 分 配 的 内 存 */ 

119 unregister chrdev region (MKDEV (light major, 0), 1); /* 删除 字符 设备 */ 
120 } 


L21 module init(liright Init); 
122 Modüle exit(ilight cleanup); 


na US WT BS IGA FL Se AN eA. ER SARI 1.3 P AERE RAA mA A 
(in AL 4A SARIN BAAR cz, wW file operations. cdev, Linux A t% PE p3 H3 RIT 
MODULE AUTHOR, MODULE LICENSE, module init, module _ exit， 以 及 用 于 字符 设备 注册 、 分 配 和 
注销 的 函数 register chrdev region () . alloc chrdev region () ~ unregister chrdev region () 等 。 我 们 也 
不 能 理解 为 什么 驱动 中 要 包含 light init © ~ light cleanup () ~ light read () ~ light write © 等 函数 。 


此 时 ， 我 们 只 需要 有 一 个 感性 认识 ， 那 融 是 ， 上 述 暂 时 阳 生 的 元 素 都 是 Linux 内 核 为 字符 设备 定义 
的 ， 以 实现 张 动 导 内 核 接口 而 定义 的 。Linux 对 各 次 设备 的 张 劲 都 定义 了 奖 似 的 数据 结构 和 冰 数 。 


第 2 章 ” 张 动议 计 的 使 件 葵 础 
本 章 导读 


本 革 讲 述 故 层 驱 动工 程 师 必 备 的 价 件 基础 ， 给 出 了 骨 入 式 系 统 蚀 件 原 理 及 分 析 方 法 的 一 个 完整 而 简洁 
的 全 景 视图 。 


2.1 节 插 述 了 微 控 制 占 、 和 做 处理 融 、 数 字 信 号 处 理 如 以 及 应 用 于 特定 领域 的 处 理 占 各 目的 特 操 ， 分 析 
J 处理 如 的 体系 结构 和 指令 集 。 


2.2 节 对 艇 入 式 系统 中 所 使 用 的 各 类 存储 器 与 CPU 的 接口 、 应 用 领域 及 特点 进行 了 归纳 整理 。 


2.3 节 分 析 了 常见 的 外 设 接 口 与 总 线 的 工作 方式 ， 包 括 串 口 、[C、SPI、USB、 以 太 网 接口 、PCI 和 


PCI-E、SD 和 SDIO 等 。 


舱 入 式 系统 硬件 电路 中 经 常会 使 用 CPLD 和 FPGA， 作 为 驱动 工程 师 ， 我 们 不 需要 掌握 CPLD 和 FPGA 
的 开发 方法 ， 但 是 需要 知道 它们 在 电路 中 能 完成 什么 工作 ，2.4 市 讲解 了 这 项 内 容 。 


2.5~2.7 市 给 出 了 在 实际 项 目 开 友 过 程 中 便 件 分 析 的 方法 ， 包 括 如 何 进行 原理 图 分 析 、 时 序 分 析 及 如 
何 快速 地 从 心 厂 数 据 手 册 中 获取 有 效 信息 。 


2.8 廊 讲解 了 调试 过 程 中 第 用 仪 顷 仪 表 的 使 用 方法 ， 涉 及 万 用 表 、 示 波 胡 和 地 和 辑 分 析 仪 。 


2.] Abs as 


2.1.1 3S8 AAAS ss 


目前 主流 的 通用 处 理 嚣 〈GPP) 多 采用 SoC HERA) 的 心 户 设 计 方 法 ， 集 成 了 各 种 功能 模块 ， 
一 种 功能 都 是 由 硬件 描述 语言 设计 程序 ， 然 后 在 SoC 内 由 电路 实现 的 。 在 SoC 中 ， 每 一 个 模块 不 是 一 个 已 
经 设计 成 玖 的 ASIC 套 件 ， 而 是 利用 导 卢 的 一 部 分 资源 去 实现 东 种 传统 的 功能 ， 将 各 种 组 件 床 用 关 似 搭 积 
木 的 方法 组 合 在 一 起 。 


ARM 内 核 的 设计 技术 被 授权 给 数 百 家 半导体 厂商 ， 做 成 不 同 的 SoC 心 片 。ARM 的 功 耗 很 低 ， 在 当今 
最 活跃 的 无 线 局 域 网 、3G、 手 机 终端 、 手 持 设备 、 有 线 网 络 通信 设备 等 中 应 用 非常 广泛 。 至 本 书 编写 
时 ， 市 面 上 绝 大 多 数 智能 手机 、 平 板 电脑 都 使 用 ARM SoC 作 为 主 探 芯片 。 很 多 ARM 主 控 芯 片 的 集成 度 非 
常 高 ， 除 了 集成 多 核 ARM 以 外 ， 还 可 能 集成 图 形 处 理 器 、 视 频 编 解码 器 、 浮 点 协 处 理 器 、GPS、WiFi、 
览 牙 、 基 带 、Camera 等 一 系列 功能 。 比 如 ， 高 通 的 Snapdragon 810 束 集成 了 如 图 2.1 所 示 的 各 种 模块 。 


— 


4% gen CAT 6LTE 
Up:to.-3x20MHz CA 





图 2.1 ARM SoC iG i]: Snapdragon 810 


FARM #4 SJALE T Fr BEN THE ELF 13S (Qualcomm) ~ = (Samsung) . XKfBiA (Nvidia) . X 
i (Marvell) 、 联 发 科 (MTK) 、 海 思 (HiSilicon) 、 展 讯 CSpreadtrum). <=. He (4s (TD 、 博 通 
(Broadcom) M) EYK EH FAL Hr ME AS - 


中 央 处 理 器 的 体系 结构 可 以 分 为 两 类 ， 一 类 为 冯 : 诺 依 曼 结构 ， 男 一 类 为 哈佛 结构 。Intel 公 司 的 中 央 
处 理 占 、ARMHFJARM7、MIPS 公 司 的 MIPS 处 理 器 米 用 了 冯 : 语 依 曼 结构 ; 而 AVR、ARM9、ARM10、 
ARMI11 以 及 Cortex A 系 列 等 则 采用 了 哈佛 结构 。 


冯 : 诡 依 曼 络 构 也 称 普林斯顿 结构 ， 和 是 一 种 将 程序 指令 存储 规 和 数据 存储 融合 并 在 一 起 的 存储 融 结 
构 。 程 序 指令 存储 地 址 和 数据 存储 地 址 指 癌 同 一 个 存储 如 的 不 同 物理 位 置 ， 因 此 程序 指令 和 数据 的 冤 度 相 
同 。 而 哈佛 结构 将 程序 指令 和 数据 分 开 存 储 ， 指 令 和 数据 可 以 有 不 同 的 数据 宽度 。 此 外 ， 哈 佛 结构 还 采用 


了 独立 的 程序 总 线 和 数据 总 线 ， 分 别 作为 CPU 与 每 个 存储 堪 之 间 的 专用 通信 路 径 ， 具 有 较 高 的 执行 效率 。 
图 2.2 描 述 了 冯 : 话 依 曼 结构 和 哈佛 结构 的 区 别 。 


POLHAMEEEIL 
\ PEST’ UT 










程序 存储 此 数据 存储 器 | 哈佛 结构 


图 2.2” 妈 : 访 依 曼 结构 与 哈佛 结构 


主 多 已 厂 及 用 的 是 如 图 2.3 所 示 的 改进 的 哈佛 架构 ， 它 其 有 独立 的 地 址 足 线 和 数据 总 线 ， 两 条 忆 线 由 
程序 存储 如 和 数据 存储 问 分 时 共用 。 因 此 ， 改 进 的 哈佛 结构 针对 程序 和 数据 ， 其 实 没 有 独立 的 电线 ， 而 是 
使 用 公用 数据 总 线 来 完成 程序 存储 柑 块 或 数据 存储 柑 块 与 CPU 之 间 的 数据 传输 ， 公 用 的 地 址 忌 线 来 寻 址 程 
序 和 数据 。 


处 理 器 





图 2.3 ”改进 的 哈佛 结构 


从 指令 集 的 角 大 来 讲 ， 中 央 人 处理 问 也 可 以 分 为 两 尖 ， 即 RISC (精简 指令 集 计 算 机 〉 和 CISC CER 
令 集 计算 机 ) 。CSIC 强 调 增强 指令 的 能 力 、 减 少 目标 代 码 的 数量 ， 但 是 指令 复 洒 ， 指 令 周 期 长 ， 而 RISC 
强调 尽量 减少 指令 集 、 指 令 单 周期 执行 ， 但 是 目标 代 但 会 更 大 。ARM、MIPS、PowerPC 等 CPU 和 内核 都 采 
用 了 RISC 指 令 集 。 目 前 ，RISC 和 CSIC 两 者 的 融合 非常 明显 。 


2.1.2 Ursa 


数字 信和 号 处 理 规 (DSP) EANES BA Teer Al ASE UAT BCT "ELE BS RTT 
Wiko DSPIJ3eiAjH T ACE Pe A Se, HRE TER BUI. FFT ARR EER) . RH 
天 上 矩阵 运算 等 算法 中 的 大 量 重 复 乘 法 。 


DSP 分 为 两 类 ， 一 类 是 定点 DSP， 另 一 类 是 浮 点 DSP。 浮 点 DSP 的 浮 点 运算 用 硬件 来 实现 ， 可 以 在 单 
周期 内 完成 ， 因 而 其 浮 点 运算 处 理 速 度 高 于 定点 DSP。 而 定点 DSP 只 能 用 定点 运算 模拟 浮 点 运算 。 


falar (TD . ERMA a] ADD 是 全 球 DSP 的 两 大 主要 厂 丙 。 


TI 的 TMS320 TM DSP 平 台 包 含 了 功能 个 同 的 多 个 系列 ， 如 2000 系 列 、3000 系 列 、4000 系 列 、5000 系 
列 、6000 系 列 ， 工 程 师 也 习惯 称 其 为 2x、3x、4x、5x、6x。2010 年 5 月 ，TI 己 经 宣布 为 其 C64x 系 列 数 字 信 
号 处 理 器 与 多 核 片 上 系统 提供 Linux 内 核 文 持 ， 以 充分 满足 通信 与 关键 任务 基础 设施 、 医 疗 诊断 以 及 局 性 
能 汕 量 测试 等 应 用 需求 。TI 也 推出 了 软件 可 编程 多 核 ARM+DSP SoC， 即 KeyStone 多 核 ARM+DSP 处 理 需 ， 
以 满足 医疗 成 像 应 用 、 任 务 关 键 应 用 、 测 试 和 自动 化 应 用 的 需求 。 


ADI 主 要 有 16 位 定点 的 21xx 系 列 、32 位 浮 点 的 SHARC 系 列 、 从 SHARC 系 列 发 展 而 来 的 TigerSHARC 系 
列 ， 以 及 局 性 能 16 位 DSP 信 和 号 处 理 能 力 与 通用 和 做 控制 天 方便 性 相 络 合 的 blackfin 系 列 等 。ADI 的 blackfin 不 
仿 MMU， 完 整 文 持 Linux， 是 没有 有 MMU 情况 下 Linux 的 典型 宁 例 ， 其 官方 网 站 为 http://blackfin.uclinux.org， 
目前 blackftin 的 Linux 开 发 保持 了 与 Linux mainline 的 同步 。 


通用 处 理 右 和 数字 信号 处 理 占 也 有 相互 融合 以 取长补短 的 趋势 ， 如 数字 信号 控制 血 (DSC) 即 为 
MCU+DSP，ADI 的 blackfin 系 列 就 属于 DSC。 目 前 ， 蕊 请 厂 商 也 推出 了 许多 ARM+DSP 的 双核 以 及 多 核 处 
Pia. WTA OMAP 4 平台 就 包括 4 个 主要 处 理 引 敬 : ARM Cortex-A9MPCore、PowerVR SGX 
540GPU (Graphic Processing Unit) 、C64x DSP#IISP (Image Signal Processor) 。 


除了 上 面 讲述 的 通用 微 控制 器 和 数字 信号 处 理 器 外 ， 还 有 一 些 针 对 特定 领域 而 设计 的 专用 处 理 器 
(ASP)， 它 们 都 是 针对 一 些 特定 应 用 而 设计 的 ， 如 用 于 HDTV、ADSL、Cable Modem 等 的 专用 处 理 器 。 


网 络 处 理 卓 是 一 种 可 编程 带 件 ， 它 应 用 于 电信 和 领域 的 各 种 任务 ， 如 包 处 理 、 协 议 分 析 、 路 由 僵 找 、 声 
首 / 数 据 的 入 聚 、 防 火 墙 、QoS 和 等。 网 络 处 理 问 帮 件 内 部 退 单 由 奢 干 个 做 公 处 理 旧 和 厂 干 价 件 协 处 理 右 组 
成 ， 多 个 做 人 处 理 紫 在 网 络 处 理 右 内 部 并 行 处 理 ， 通 过 预 完 编制 的 微 公 来 控制 处 理 流程 。 而 对 于 一 些 复 灯 
的 标准 操作 《如 内 存 操作 、 路 由 表 碍 找 算 法 、QoS 的 拥 宅 控制 算法 、 流 量 调度 算法 等 ) ， 则 采用 便 件 协 处 
理 器 来 进一步 提高 处 理性 能 ， 从 而 实现 了 业务 灵活 性 和 高 性 能 的 有 机 结合 。 


对 于 东 些 应 用 场合 ， 使 用 ASIC (专用 集成 电路 ) 往往 征 低 成 本 且 融 性 能 的 方案 。ASIC 专 门 针 对 特定 


应 用 而 说 计 ， 不 有 具备 也 不 需要 灵活 的 编程 能 力 。 使 用 ASIC 完 成 同样 的 功能 往往 比特 接 使 用 CPU 资 
CPLD (复杂 可 编程 逻辑 器 件 ) /FPGA (现场 可 编程 门 阵列 〉 来 得 更 廉价 且 高 效 。 


微 控 制 器 (MCU， 
又 称 单片机 ) 
通用 处 理 器 
(GPP) 
dut AFH BE CMPU ) 融合 ， 数 字 信 和 号 
定点 DSP 控制 器 (DSC) 
数字 信号 
按 应 用 领域 分 类 | ras 
(DSP) 
浮 点 DSP 
网 络 人 处理 器 
专用 处 理 器 (MALE ae 
(ASP) 及 
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图 2.4 ”处理 器 分 类 
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发 挥 自 己 的 长 处 。 如 在 一 款 智能 手机 中 ， 可 使 用 MCU 处 理 图 形 用 户 界 面 和 用 户 的 按键 输入 并 运行 多 任务 


操作 系统 ， 使 用 DSP 进 行 首 视频 编 解 码 ， 而 在 射频 方面 则 灯 用 ASIC。 


综合 2.1 方 的 内 容 ， 可 得 出 如 图 2.4 所 示 的 处 理 硕 分 类 。 


2.2 dffüzs 


存储 器 主要 可 分 类 为 只 读 储存 器 (ROM) 、 闪 存 (Flash) 、 随 机 存 取 存储 器 CRAM) 、 光 / 磁 介 质 储 


ROM 还 可 再 细 分 为 不 可 编程 ROM、 可 编程 ROM (PROM) 、 可 擦 除 可 编程 ROM (EPROM) 和 电 可 
察 除 可 编程 ROM (E2PROM) ，E2PROM 完 全 可 以 用 软件 来 擦 写 ， 己 经 非常 方便 了 。 


NOR 〈 或 非 ) 和 NAND (与 非 ) 是 市 场 上 两 种 主要 的 Flash 闪 存 技术 。Intel 于 1988 年 首先 开发 出 NOR 
Flash 技 术 ， 彻 底 改 变 了 原先 由 EPROM 和 EEPROM 一 统 天 下 的 局 面 。 紧 接着 ，1989 年 ， 东 芝 公 司 发 表 了 
NAND Flash 结 构 ， 每 位 的 成 本 被 大 大 降低 。 

NOR Flash 和 CPU 的 接口 属于 典型 的 类 SRAM 接 口 〈 如 图 2.$ 所 示 ) ， 不 需要 增加 额外 的 控制 电路 。 
NOR Flash 5g Biz Ft HAUT CeXecuteIn Place, XIP) ， 程 序 可 以 直接 在 NOR 内 运行 。 而 NAND 
Flash 和 和 CPU 的 接口 必须 由 相应 的 控制 电路 进行 转换 ， 当 然 也 可 以 通过 地 址 线 或 GPIO 产 生 NAND Flash 接 口 
PE 5.o NAND Flash 以 块 方式 进行 访问 ， 不 支持 心 厂 内 执行 。 

数据 总 线 


SRAM, NOR Flash 
以 及 其 他 提供 SRAM 


接口 的 LO 芯片 等 


中 断 〈 仅 对 UO 芯片 ) 





图 2.$ ”典型 的 类 SRAM 接 口 


公共 内 存 接 口 〈Common Flash Interface, CFI) 是 一 个 从 NOR Flash 妖 件 中 读 取 数据 的 公开 、 标 准 接 
口 。 生 可 以 使 系统 软件 得 询 已 安 痛 的 Flash 带 件 的 各 种 参数 ， 包 括 玲 件 阵列 结构 参数 、 电 气 和 时 间 参 数 以 
及 耸 件 文 持 的 功能 等 。 如 果 心 万 不 文 持 CEI， 残 需 使 用 JEDEC (Joint Electron Device Engineering Council, 
电子 电器 设备 联合 会 ) 了 。JEDEC 规 范 的 NOR 则 无 法 直接 通过 命令 来 恋 出 容量 等 信息 ， 需 要 读 出 制造 丙 


ID 和 设备 ID， 以 确定 Flash 的 大 小 。 
与 NOR Flash 的 关 SRAM 接 口 不 同 ， 一 个 NAND Flash 的 接口 主要 包含 如 下 信号。 
-LO 总 线 : 地 址 、 指 令 和 数据 通过 这 组 总 线 传输 ， 一 般 为 8 位 或 16 位 。 


ots} Ja) (Chip Enable, CE#) : WRIA NN SICER S> NANDE MARENE, ARME 


控制 信号 做 出 啊 应 。 


“EA RE (Write Enable, WEZ) : WE# 人 负 贡 将 数据 、 地 址 或 指令 写 入 NAND 之 中 。 
: 读 使 能 (Read Enable, RE#) : RE# 人 允许 数据 输出 。 


:指令 锁 存 使 能 (Command Latch Enable, CLE) : 当 CLE 为 高 电 平时 ， 在 WE# 信 号 的 上 升 治 ， 指 邻 将 


被 锁 存 到 NAND 指 令 寄 存 器 中 。 


:地 址 锁 存 使 能 (Address Latch Enable, ALE) : 当 ALE 为 高 电 平 时 ， 在 WE# 信 号 的 上 升 治 ， 地 址 将 被 
锁 存 到 NAND 地 址 寄存 器 中 。 


WANE CReady/Busy, R/B#) : WRNANDASIFIÈE, RBHS TR RIRE F. VAS m AEUSTRT ES; 
需要 采用 上 拉 电 阻 。 


NAND Flash 较 NOR Flash 容 量 大 ， 价 格 低 ， NAND Flash! FAH KERER KL E1007J3 4X, NOR 
的 探 写 次 数 是 10 万 次 : NAND Flash 的 探 除 、 编 程 速度 远 超 过 NOR Flash. 


由 于 Flash 固 有 有 的 电 硕 特性 ， 在 该 与 数据 过 程 中 ， 倡 然 会 产生 1 位 或 儿 位 数据 铺 误 ， 即 位 反 转 ，NAND 
Flash 有 太 生 位 反 转 的 概率 要 远大 于 NOR Flash。 位 反 转 无 法 避免 ， 因 此 ， 使 用 NAND Flash 的 同时 ， 应 采用 钳 
误 探 测 /错误 更 正 CEDC/ECC) 算法 。 


Flash 的 编程 原理 都 是 只 能 将 1 写 为 0， 而 不 能 将 0 与 为 1。 因 此 在 Flash 纺 程 乙 前 ， 必 顷 将 对 应 的 其 撕 
际 ， 而 氛 除 的 过 程 束 是 把 所 有 位 部 写 为 1 的 过 程 ， 块 内 的 所 有 子 市 变 为 0xXFF。 为 外 ，Flash 还 行 在 一 个 负载 
均衡 的 问题 ， 不 能 老 是 在 同一 其 位 置 进行 探 除 和 与 的 动作 ， 这 样 容 多 导致 坏 块 。 


人 得 一 捉 的 是 ， 目 前 NOR Flash 可 以 使 用 SPI 接 口 进 行 访问 以 节省 引 脚 。 相 对 于 传统 的 并 行 NOR Flash 
而 言 ，SPI NOR Flash 只 需要 6 个 引 脚 就 能 够 实现 单 WO、 双 VO 和 4 个 LO 口 的 接口 通信 ， 有 的 SPI NOR Flash 


还 文 持 DDR 模 式 ， 能 进一步 提高 访问 速 度 到 80MB/S。 


IDE (Integrated Drive Electronics) 接口 可 连接 价 检 控制 莫 或 光驱 ，IDE 接 口 的 信号 与 SRAM 类 似 。 人 人 
们 通常 也 把 IDE 接 口 称 为 AIA (Advanced Technology Attachment) 接口 ， 不 过 ， 从 技术 角度 而 言 ， 这 并 不 准 
确 。 其 实 ，AITA 接 口 发 展 至 今 ， 已 经 经 历 了 AIA-1 (IDE) 、ATA-2 (Enhanced IDE/Fast ATA, EIDE) 、 
ATA-3 (FastATA-2) 、Ultra ATA, Ultra ATA/33. Ultra ATA/66. Ultra ATA/100% Serial ATA (SATA) 的 发 


很 多 SoC 集 成 了 一 个 eFuse 电 编程 熔 丝 作为 OTP (One-Time Programmable， 一 次 性 可 编程 ) TTEA o 
eFuse 可 以 通过 计算 机 对 尽 户 内 部 的 参数 和 功能 进行 配置 ， 这 一 般 是 在 必 片 出 广 的 时 候 已 经 设置 好 了 。 


UA EPIRI) E RPROM. Flash T Jot 4f fit ss bm 1 Ea A LEER NVM) 的 范畴 ， 岳 电 时 信息 不 
会 丢失 ， 而 RAM 则 与 此 相反 。 


RAM 也 可 再 分 为 静态 RAM (SRAM) 和 动态 RAM (DRAM) 。DRAM 以 电荷 形式 进行 存储 ， 数 据 存 
储 在 电容 器 中 。 由 于 电容 堪 会 因 漏电 而 出 现 电 和 荷 丢 失 ， 所 以 DRAM 器 件 需 要 定期 刷新 。SRAM 有 是 静态 的 ， 
只 要 供电 它 就 会 保持 一 个 值 ，SRAM 没 有 刷新 周期 。 每 个 SRAM 存 储 单元 由 6 个 晶体管 组 成 ， 而 DRAM 存 
储 单 元 由 1 个 品 体 管 和 1 个 电容 器 组 成 。 


通常 所 说 的 SDRAM、DDR SDRAM 缘 属于 DRAM 的 范畴 ， 它 们 采用 与 CPU 外 存 控制 器 同步 的 时 钟 工 
作 “〔〈 注 意 ， 不 是 与 CPU 的 工作 频率 一 致 ) 。 与 SDRAM 相 比 ，DDR SDRAM 同 时 利用 了 时 钟 脉 冲 的 上 升 沿 
和 下 降 沿 传输 数据 ， 因 此 在 时 钟 频率 不 变 的 情况 下 ， 数 据 传输 频 京 加 倍 。 此 外 ， 还 存在 使 用 
RSL (Rambus Signaling Level，Rambus 及 信 电 平 ) 技术 的 RDRAM (Rambus DRAM) 和 Direct RDRAM. 


针对 许多 特定 场合 的 应 用 ， 艇 入 式 系 统 中 往往 还 使 用 了 一 些 特定 类 型 的 RAM。 
1.DPRAM: X ïm ORAM 


DPRAMIEMN 457 RE n] DASE PN AT m ATES Vi Hl, RA PE EROS eX. Lh RAE do rl 
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潜 获 知 ， 并 读 取 其 写 入 的 数据 。 由 于 双 CPU 同 时 访问 DPRAM 时 的 仲裁 逻辑 电路 集成 在 DPRAM 内 部 ， 所 以 
m E BETTE LEER ETT T] FE EA JS ER EC fn] HR. 





图 2.6” 双 端口 RAM 


DPRAM 的 优点 古 退 信 速 度 快 、 实 时 性 强 、 接 口 人 简 早 ， 而 且 两 边 处 理 右 部 可 主动 进行 数据 传输 。 除 了 
双 珊 口 RAM 以 外 ， 目 前 IDT 等 心 厂 厂商 还 推出 了 多 闹 口 RAM， 可 以 供 3 个 以 上 的 处 理 带 互 退 数 据 。 


2.CAM: 内 容 寻 址 RAM 


CAM 坪 以 内 容 进 行 寻 址 的 存储 间 ， 是 一 种 特殊 的 存储 阵列 RAM， 它 的 主要 工作 机 制 残 是 同时 将 一 个 
得 入 数据 项 与 存储 在 CAM 中 的 所 有 数据 项 目 动 进行 比较 ， 判 询 访 输入 数据 项 与 CAM 中 存储 的 数据 项 古 合 
相 匹 配 ， 并 输出 该 数据 项 对 应 的 匹配 信息 。 


如 图 2.7 所 示 ， 在 CAM 中 ， 输 入 的 是 所 要 但 询 的 数据 ， 输 出 的 是 数据 地 址 和 罗 配 标志 。 石 还 配 〈 即 搜 
寻 到 数据 ) ， 则 输出 数据 地 址 。CAM 用 于 数据 检索 的 优势 是 软件 无 法 比拟 的 ， 它 可 以 极 大 地 提高 系统 性 
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图 2.7 CAM 的 输入 与 输出 
3.FIFO: 先进 先 出 队列 


FIFO 和 存储 占 的 特点 是 先进 完 出 ， 进 出 有 序 ，FIFO 多 用 于 数据 缓冲 。FIFO 和 DPRAM 类 似 ， 上 有 具有 两 个 访 
问 端口 ， 但 是 FIFO 两 边 的 端口 并 不 对 等 ， 某 一 时 刻 只 能 设置 为 一 边 作 为 输入 ， 一 边 作为 输出 。 


如 果 FIFO 的 区 域 共有 n 个 字 节 ， 我 们 只 能 通过 循环 n 次 读 取 同 一 个 地 址 才能 将 该 片区 域 读 出 ， 不 能 指 
定 偏 移 地 址 。 对 于 有 n 个 数据 的 FIFO， 当 循环 读 取 m 次 之 后 ， 下 一 次 读 时 会 自动 读 取 到 第 m+1 个 数据 ， 这 
是 由 FIFO 本 身 的 特性 决定 的 。 


忌 结 2.2 节 的 内 容 ， 可 得 出 如 图 2.8 所 示 的 存储 器 分 类 。 
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图 2.8 FERIT 


23 接口 与 总 线 
2.3.1 上 串口 


RS-232、RS-422 与 RS-485 孝 是 串 行 数据 接口 标准 ， 最 初 都 是 由 电子 工业 协会 (EILA) 制订 并 发 布 的 。 


RS-232 在 1962 年 及 布 ， 命 名 为 EIA-232-E。 之 后 用 布 的 RS-422 定 义 了 一 种 平衡 通信 接口 ， 它 是 一 种 单 
机 发 送 、 多 机 接收 的 单 向 、 平 衡 传输 规范 ， 被 命名 为 TIA/EIA-422-A 标 准 。RS-422 改 进 了 RS-232 通 信 上 距离 
得、 速率 低 的 缺点 。 为 进一步 扩展 应 用 范围 ，EIA 又 于 1983 年 在 RS-422 的 基础 上 制定 了 RS-485 标 准 ， 增 加 
了 多 点 、 双 同 通 信 能 力 ， 即 允许 多 个 发 送 器 连接 到 同一 条 总 线 上 ， 同 时 增加 了 发 送 器 的 驱动 能 力 和 证 突 保 
护 特性 ， 并 扩展 了 总 线 共 模范 围 ， 被 命名 为 TIA/EIA-485-A 标 准 。 


1969 年 及 布 的 RS-232 修 改 厂 RS-232C 是 人 藤 入 式 系统 中 应 用 最 广泛 的 串 行 接口 ， 它 为 连接 DTE〈 数 据 终 
端 设 备 ) 与 DCE (数据 通信 设备 ) 而 制定 。RS-232C 标 准 接口 有 25 条 线 (4 条 数据 线 、11 条 控制 线 、3 条 定 
时 线 、7 条 备用 和 未 定义 线 ) ， 和 茹 用 的 只 有 9 根 ， 它 们 是 RTS/CTS 请 求 友 送 /清除 发 送 流 控制 ) 

RxD/TxD CE) 、DSR/DTR (BEA A 2S vx EL en Uis . DCD CA tM, MK 
RLSD， 即 接收 线 信号 检 出 ) 、Ringing-RI《〈 振 铃 指 示 ) . SG Ca SH fum. RTS/CTS. RxD/TxD. 
DSR/VDTR 等 信号 的 定义 如 下 。 


‘RTS: 用 来 表示 DTE 请 求 DCE 友 送 数据 ， 当 终端 要 发 送 数据 时 ， 使 该 信号 有 效 。 
‘CTS: 用 来 表示 DCE 准 备 好 接收 DTE 发 来 的 数据 ， 是 对 RTS 的 响应 信和 号 

‘RxD: DTE 通 过 RxD 接 收 从 DCE 友 来 的 串 行 数据 。 

‘TxD: DTE 通 过 TxD 将 串 行 数据 发 送 到 DCE。 

‘DSR: 有 效 CONTUSO 表明 DCE 可 以 使 用 。 

DTR: AR CONTUSO 表明 DTE 可 以 使 用 。 


‘DCD: 当 本 地 DCE 设 备 收 到 对 方 DCE 设 备 送 来 的 载波 信号 时 ， 使 DCD 有 效 ， 通 知 DTE 稚 备 接收 ， 并 
日 由 DCE 将 接收 到 的 载波 信号 解 调 为 数字 信号 ， 经 RxD 线 送 给 DTE。 


Ringing-RI: 当 调 制 解 调 喜 收 到 交换 人 台 送 来 的 振 铃 呼叫 信号 时 ， 使 该 信号 有 效 (ON 状态 ) ， 通 知 终 
igs CHE. 


最 简单 的 RS-232C 串 口 只 需要 连接 RxD、TxD、SG 这 3 个 信和 上 号， 并 使 用 XON/XOFF 软 件 流 控 。 


组 成 一 个 RS-232C 串 口 的 硬件 原理 如 图 2.9 所 示 ， 从 CPU 到 连接 部 依 次 为 CPU、UART (通用 异步 接收 
器 发 送 器 ， 作 用 是 完成 并 / 串 转 换 ) 、CMOS/TTL 电 平 与 RS-232C 电 平 转换 、DB9/DB25 或 自 定 义 连接 器 。 


数据 总 线 












RS-232C 信 号 | o "T RS-232C42: 5. 
地 址 总 线 fii J C MOS/TTL fii J 
CPU UART j 
, SA HE Hih. — 
CMOS/TIL | 电 平 转换 | RS-232C 电 平 
控制 总 线 t 





图 2.9 RS-232C 串 口 电路 原理 


232 FC 


FC《〈 内 置 集 成 电路 ) 总 线 是 由 Philips 公 司 开 发 的 两 线 式 串 行 总 线 ， 产 生 于 20 世 纪 80 年 代 ， 用 于 连接 
微 控 制 器 及 其 外 围 设备 。FC 总 线 简 单 而 有 效 ， 占 用 的 PCB 〈 印 制 电路 板 ) 空间 很 小 ， 芯 片 引 脚 数量 少 ， 
设计 成 本 低 。IC 总 线 支 持 多 主 控 (Multi-Mastering) 模式 ， 任 何 能 够 进行 发 送 和 接收 的 设备 都 可 以 成 为 主 
设备 。 主 控 能 够 控制 数据 的 传输 和 时 钟 频率 ， 在 任意 时 刻 只 能 有 一 个 主 控 。 


组 成 PC 总 线 的 两 个 信号 为 数据 线 SDA 和 时 钟 SCL。 为 了 避免 总 线 信号 的 混乱 ， 要 求 各 设备 连接 到 总 
线 的 输出 端 必 须 是 开 漏 输出 或 集 电极 开路 输出 的 结构 。 总 线 空闲 时 ， 上 拉 电 阻 使 SDA 和 SCL 线 都 保持 高 电 
平 。 根 据 开 漏 输出 或 集 电极 开 路 输出 信号 的 “ 线 与 逻辑，PC 总 线 上 任意 器 件 输出 低 电 平 都 会 使 相应 总 线 
上 的 信号 线 变 低 。 


ss «£X 532 R3 HJ ze PS BS EA E- H5) 8g E EL AE AY ASE Se. AA i 
开 漏 “ 对 于 CMOS 器 件 ) 输出 或 集 电极 开路 (对 于 TTL 器 件 〉 输 出 时 才 满 足 此 条 件 。 工 程 师 一 般 以 “OC 
1 简称 开 淹 或 集 电 极 开路 。 


IC 设备 上 的 串 行 数据 线 SDA 接 口 电路 是 双向 的 ， 输 出 电路 用 于 向 总 线 上 发 送 数 据 ， 输 入 电路 用 于 接 
收 忌 线 上 的 数据 。 同 样 地 ， 串 行 时 钟 线 SCL 也 十 双 同 的 ， 作 为 控制 鼠 线 数据 传 运 的 主机 要 通过 SCL 和 输出 电 
路 友 太 时钟 信 写 ， 并 检 机 总 线 上 SCL 上 的 电 平 以 决定 什么 时 候 友 下 一 个 时 钟 脉冲 电 平 ， 作 为 接收 主机 命令 
的 从 设备 裔 控 忆 线 上 SCL 的 信号 友 壕 或 接收 SDA 上 的 信和 写 ， 它 也 可 以 癌 SCL 线 友 出 低 电 剃 信号 以 延长 忌 线 
I PRESA BI. 


当 SCL 稳 定 在 高 电 平 时 ，SDA 由 高 到 低 的 变化 将 产生 一 个 开始 位 ， 而 由 低 到 高 的 变化 则 产生 一 个 停止 
位 ， 如 图 2.10 所 示 。 


开始 位 和 停止 位 都 由 FC 主 设备 产生 。 在 选择 从 设备 时 ， 如 果 从 设备 采用 7 位 地 址 ， 则 主 设 备 在 发 起 传 
输 过 程 前 ， 需 先 发 送 1 字 节 的 地 址 信息 ， 前 7 位 为 设备 地 址 ， 最 后 1 位 为 读 写 标 志 。 之 后 ， 每 次 传输 的 数据 
也 是 1 字 节 ， 从 MSB 开 始 传输 。 每 个 字 节 传 完 后 ， 在 SCL 的 第 9 个 上 升 沿 到 来 之 前 ， 接 收 方 应 该 发 出 1 个 
ACK 位 。SCL 上 的 时 钟 脉冲 由 fC 主 控 方 发 出 ， 在 第 8 个 时 钟 周期 之 后 ， 主 控 方 应 该 释放 SDA，I?*C 总 线 的 
时 序 如 图 2.11 所 示 。 


SDA SDA 


开始 位 停止 位 


图 2.10 IC 总 线 的 开始 位 和 停止 位 


| 
| | 
| | MSB 来 自 接收 方 的 ACK 来 日 接收 方 的 ACK | 

| 
| | 

| TY 
SCL! Ik £1 fa 7X [8X [o Lh ga Vi pet 

-e o ACK me 


字 节 传输 完成 时钟 线 保持 低 电 平 


图 2.11 PC 总 线 的 时 序 


2.3.3 SPI 


SPI (Serial Peripheral Interface, ETAO) 总 线 系 统 是 一 种 同步 串 行 外 设 接口 ， 它 可 以 使 CPU 与 
各 种 外 围 设备 以 串 行 方式 进行 通信 以 交换 人 信息。 一般 主 控 SoC 作 为 SPI 的 “ 主 ”， 而 外 设 作为 SPI 的 “从 ”。 


SPI 接 口 一 般 使 用 4 条 线 : 串 行 时 钟 线 CSCLKO 、 主 机 输入 /从 机 输出 数据 线 MISO、 主 机 输出 /从 机 和 输 
入 数据 线 MOSI 和 低 电 平 有 效 的 从 机 选 择 线 SS 〈 在 不 同 的 文献 里 ， 也 稍 称 为 nCS、CS、CSB、CSN、 
nSS、STE、SYNC 等 ) 。 图 2.12 演 示 了 1 个 主机 连接 3 个 SPI 外 设 的 硬件 连接 图 。 


SCLK 
MOSI 
MISO 
SS 


SCLK 
MOSI 
MISO 
SS 








图 2.12 ”SPI 主 、 从 硬件 连接 图 


如 图 2.13 所 示 ， 在 SPI 总 线 的 传 翘 中 ，SS 信 吕 征 低 电 平 有 效 的 ， 当 我 们 要 与 未 外 设 通 信 的 时 候 ， 需 要 
将 赵 外 设 上 的 SS 线 症 低 。 此 外 ， 特 列 要 注意 SPI 从 设备 文 持 的 SPI 总 线 最 高 时 钟 频 率 《〈 雇 定 了 SCK 的 频率 ) 
以 及 外 设 的 CPHA、CPOL 模 式 ， 这 决定 了 数据 与 时 钟 之 间 的 偏 黎 、 有 采样 的 时 刻 以 及 触 友 的 边沿 是 上 升 沿 
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图 2.13 ”SPI 总 线 的 时 序 


SPI 模 块 为 了 和 外 设 进行 数据 交换 ， 根 据 外 设 工作 要 求 ， 其 输出 串 行 同步 时 钟 极 性 (CPOL〉 和 相位 
(CPHAO 可 以 进行 配置 。 如 采 CPOL=0， 串 行 同 步 时 钟 的 空 末 状态 为 低 电 平 ， 如 采 CPOL=1， 串 行 同 步 时 
钟 的 空闲 状态 为 高 电 平 。 如 果 CPHA=0， 在 串 行 同步 时 钟 的 第 一 个 跳 变 沿 (上 升 或 下 降 ) 数据 被 采样 ， 如 
果 CPHA=1， 在 串 行 同步 时 钟 的 第 二 个 跳 变 沿 (上 升 或 下 降 ) 数据 被 采样 。 


2.3.4 USB 


USB 〈 通 用 串 行 总 线 ) ZeIntel, Microsoft] FARA RUD LA FHSS HY Ha 13 UI E BRUT] Ee es 
fm AZ AP SM T 19955E de HH, ERA Usted Ru. DD Re. schRBDTHBI H MAR 
目前 已 得 到 广泛 应 用 。 


USB 1.1 包 含 全 速 和 低速 两 种 模式 ， 低 速 方 式 的 速率 为 1.5Mbit/s， 文 持 一 些 不 前 要 很 大 数据 硅 吐 量 和 
很 高 实时 性 的 设备 ， 如 鼠标 等 。 全 速 模式 为 12Mbits， 可 以 外 接 速 率 更 高 的 外 设 。 在 USB 2.0 中 ， 增 加 了 
一 种 高 速 方式 ， 数 据 传输 率 达 到 480Mbits， 半 双 工 ， 可 以 满足 更 高 速 外 设 的 需要 。 而 USB 3.0《〈 也 被 认为 
z€ Super Speed USB) 的 最 大 传输 市 蜗 高 达 $.0Gbits《〈 即 640MB/S) ， 全 双 工 。 


USB 2.0 总 线 的 机 械 连 接 非 彰 简 单 ， 采 用 4 必 的 屏 表 线 ， 一 对 差分 线 (Dco. D 传送 信号 ， 另 一 对 
(VBUS、 电 产地 ) FIK+S VA EH. USB 3.0 线 统 则 设计 了 8 条 内 部 线路 ， 除 VBUS、 电 源 地 之 外 ， 其 
余 3 对 均 为 数据 传输 线路 。 其 中 你 留 了 D+ 与 D- 这 两 条 若 容 USB 2.0 的 线路 ， 新 增 了 SSRX 与 SSTX 专 为 USB 
3.0 所 设 的 线路 。 


在 嵌入 式 系统 中 ， 电 路 板 奋 需要 排 接 USB 设 备 ， 则 需 提 供 USB 主 机 《Host) 控制 器 和 连接 右 ; 各 电路 
板 需 要 作为 USB 设 备 ， 则 需 提 供 USB 设 备 适 配 右 和 连接 器 。 目 前 ， 大 多 数 SoC 集 成 了 USB 主 机 控制 妖 《〈 以 
连接 USB 外 设 ) 和 设备 适配器 《以 将 本 藤 入 式 系统 作为 其 他 计算 机 系统 的 USB 外 设 ， 如 手机 到 当 U 盘 ) 。 
由 USB 主 机 、 设 备 和 Hub 组 成 的 USB 系 统 的 物理 拓扑 结构 如 图 2.14 所 示 。 
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图 2.14 ”USB 的 物理 拓扑 结构 


每 一 个 USB 设 备 会 有 一 个 或 者 多 个 逻辑 连接 点 在 里 面 ， 每 个 连接 点 叫 端点 。USB 提 供 了 多 种 传输 方式 
以 适应 各 种 设备 的 需要 ， 一 个 端点 可 以 选择 如 下 一 种 传输 方式 。 


1 .控制 (Control) 传输 方式 


控制 传输 是 双 回 传输 ， 数 据 量 通 首 较 小 ， 主 要 用 来 进行 租 询 、 配 置 和 给 USB 设 备 发 送 通用 命令 。 所 有 
USB 设 备 必 须 文 持 标准 请 求 CStandard Request) ， 控 制 传输 方式 和 端点 0。 


2. 同 步 CIsochronous) 传输 方式 


司 步 传输 提供 了 确定 的 市 宽 和 间隔 时 间 ， 它 用 于 时 间 要 求 严 格 并 具有 较 强 容错 性 的 这 数 据 传 输 ， 或 者 
用 于 要 求 恒 定数 据 传送 深 的 即时 应 用 。 例 如 进行 语 首 业务 传输 上 时， 使 用 同步 传输 方式 是 很 好 的 选择 。 同 步 
Fe sar th 8$ PKA “Streaming Real-time” 传 输 。 


3. 中 断 〈Interrupt) 传输 方式 


中 断 方式 传送 是 单 向 的 ， 对 于 USB 主 机 而 言 ， 只 有 输入 。 中 断 传输 方式 主要 用 于 定时 查询 设备 是 否 有 
中 断 数据 要 传送 ， 该 传输 方式 应 用 在 少量 分 散 的、 不 可 预测 的 数据 传输 场合 ， 键 盘 、 游 戏 杆 和 鼠标 属于 这 


一 类 型 ， 


4. 批 量 (Bulk) 传输 方式 


批量 传输 主要 应 用 在 没有 融 宽 、 间 隔 时 间 了 要 求 的 批量 数据 的 传送 和 接收 中 ， 它 要 求 保 证 传输 。 打 印 机 
和 扫描 仪 属于 这 种 类 型 。 


而 USB 3.0 则 增加 了 一 种 Bulk Streams 传 输 模 式 ，USB 2.0 的 Bulk 模 式 只 支持 1 个 数据 流 ， 而 Bulk 
Streams 传 输 模 式 则 可 以 文 持 多 个 数据 流 ， 每 个 数据 流 被 分 配 一 个 Stream ID (SID) ， 每 个 SID 与 一 个 主机 
缓冲 区 对 应 。 


在 USB 架 构 中 ， 集 线 融 负 贡 检测 设备 的 连接 和 上 断 开 ， 利 用 其 中 断 I 病 点 〈Interrupt IN Endpoint) 来 回 
主机 报告 。 一 旦 获 甘 有 新 设备 连接 上 来 ， 主 机 束 会 友 这 一 系列 请 求 给 设备 所 挂 载 的 集 线 禹 ， 上 于 由 集 线 帮 建 


了 起 一 条 连接 主机 和 设备 之 间 的 通信 通道 。 然 后 主机 以 控制 传输 的 方式 ， 六 点 0 对 设备 发 这 各 种 请 
求 ， 设 备 收 到 主机 发 来 的 请 求 后 回复 相应 的 信息 ， 进 行 枚 举 CEnumerate) 操作 。 因 此 USB 忌 线 具 备 热 插 


拔 的 能 


2.3.5 ”以 太 网 接口 


以 太 网 接口 由 MAC (以 太 网 媒体 接 入 控制 器 ， 和 PHY (物理 接口 收发 器 ) 组 成 。 以 太 网 MAC 由 IEEE 
802.3 以 太 网 标准 定义 ， 实 现 了 数据 链 路 层 。 常 用 的 MAC 支 持 10Mbit/s 或 100Mbit/s 两 种 速率 。 吉 比特 以 大 
网 《也 称 为 干 兆 位 以 太 网 ) 是 快速 以 太 网 的 下 一 代 技 术 ， 将 网 速 提高 到 了 1000Mbits。 于 兆 位 以 太 网 以 
IEEE 802.3z 和 802.3ab 友 布 ， 作 为 IEEE 802.3 标 准 的 人 补 元 。 


MAC 和 和 PHY 之 间 米 用 MH 媒体 独立 接口 ) 连接 ， 它 是 IEEE-802.3 定 义 的 以 太 网 行业 标准 ， 包 括 1 个 
数据 接口 与 MAC 和 PHY 之 间 的 1 个 管理 接口 。 数 据 接口 包括 分 别 用 于 发 送 和 接收 的 两 条 独立 信道 ， 每 条 信 
道 都 有 自己 的 数据 、 时 钟 和 控制 信号 ，MII 数 据 接口 总 共 需 要 16 个 信号 。MII 管 理 接 口 包含 两 个 信号 ， 一 
个 是 时 钟 信号 ， 男 一 个 是 数据 信号 。 通 过 管理 接口 ， 上 层 能 监视 和 控制 PHY。 


一 个 以 太 网 接口 的 硬件 电路 原理 如 图 2.15 所 示 ， 从 CPU 到 最 终 接口 依次 为 CPU、MAC、PHY、 以 太 网 
隐 离 变压器 、RJ45 插 座 。 以 太 网 隔离 变 压 右 是 以 太 网 收发 芒 片 与 连接 器 之 间 的 人 磁性 组 件 ， 在 其 两 者 之 间 
起 着 信号 传输 、 阻 抗 下 配 、 波 形 修复 、 信 号 杂 波 抑制 和 高 电压 隔离 作用 。 











RJ45 


串 行 信号 | px | 串 行 信和 号 
CY 隔离 变压器 KK 一》 AÀ 





图 2.15 ”以 太 网 接口 的 硬件 电路 原理 


许多 处 理 器 内 部 集成 了 MAC 或 同时 集成 了 MAC 和 PHY， 另 有 许多 以 太 网 控制 芯片 也 集成 了 MAC 和 
PHY. 


2.3.6 PCI 和 PCI-E 


PCI (Jb EAB EXE) 是 由 Intel 于 1991 年 推出 的 一 种 局 部 忌 线 ， 作 为 一 种 过 用 的 电线 接口 标准 ， 它 在 
日前 的 计算 机 系统 中 得 到 了 非 第 广泛 应 用 。PCI 忌 线 具 有 如 下 特 反 。 


:数据 总 线 为 32 位 ， 可 扩充 到 64 位 。 


可 进行 突 发 (Burst) 模式 传输 。 突 发 方式 传输 是 指 取得 总 线 控制 权 后 连续 进行 多 个 数据 的 传输 。 突 
发 传输 时 ， 只 需要 给 出 目的 地 的 首 地 址 ， 访 问 第 1 个 数据 后 ， 第 2~n 个 数据 会 在 首 地 址 的 基础 上 按 一 定 规 
则 自动 寻 址 和 传输 。 与 突 发 方式 对 应 的 是 单 周 期 方式 ， 它 在 1 个 总 线 周期 只 传送 1 个 数据 。 


-总线 操作 与 处 理 融 一 存储 货 了 于 系统 操作 并 行 。 

:采用 中 央 集 中 却 总 线 仲裁 。 

: 文 持 全 目 动 配置 、 资 源 分 配 ，PCI 卡 内 有 设备 信息 寄存 蓝 组 为 系统 提供 卡 的 信息 ， 可 实现 即 插 即 用 。 
PCIE £j GA V Fb Has, HA PEM 

PCI 设备 可 以 完全 作为 主 控 设 备 控制 忌 线 。 


图 2.16 给 出 了 一 个 典型 的 基于 PCI 总 线 的 计算 机 系统 逻辑 示意 图 ， 系 统 的 各 个 部 分 通过 PCI 总 线 和 PCTI- 
PCI 桥 连接 在 一 起 。CPU 和 RAM 通 过 PCI 桥 连接 到 PCI 总 线 0( 即 主 PCI 总 线 ) ， 而 具有 PCI 接 口 的 显卡 则 可 
以 直接 连接 到 主 PCI 总 线 上 。PCI-PCI 桥 是 一 个 特殊 的 PCI 设 备 ， 它 负 贡 将 PCI 总 线 0 和 PCI 总 线 1( 即 从 PCI 
主线 ) 连接 在 一 起 ， 通 各 PCI 总 线 1 称 为 PCI-PCI 桥 的 下 游 (Downstream) ， 而 PCI 总 线 0 则 称 为 PCI-PCI 桥 
的 上 游 (Upstream) 。 为 了 兼容 上 日 的 ISA 总 线 标准 ，PCI 总 线 还 可 以 通过 PCI-ISA 桥 来 连接 ISA 总 线 ， 从 而 支 
持 以 前 的 ISA 设 备 。 


PCI 总 线 0 






PCI-PCI 桥 
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图 2.16 ”基于 PCI 总 线 的 计算 机 系统 逻辑 示意 图 


当 PCI 卡 刚 加 电 时 ， 卡 上 配置 空间 即 可 以 被 访问 。PCI 配 置 空间 保存 着 该 卡 工作 时 所 需 的 所 有 信息 ， 
如 三家 、 卡 功能 、 资 源 要 求 、 处 理 能 力 、 功 能 模块 数量 、 主 控 卡 能 力 等 。 通 过 对 这 个 空间 信息 的 谈 取 与 编 
程 ， 可 完成 对 PCI 卡 的 配置 。 如 图 2.17 所 示 ，PCI 配 置 空间 共 为 256 字 节 ， 主 要 包括 如 下 信息 。 


:制造 商标 识 CVendor ID) : 由 PCI 组 织 分 配给 厂家 。 


:设备 标识 (Device ID) : 按 产 品 分 类 给 本 卡 的 编号 。 


:分 类 人 码 (Class Code) : 本 卡 功 能 的 分 类 人 码 ， 如 图 卡 、 显 示 卡 、 解 压 卡 等 。 


.申请 存储 器 空间 ，PCI 卡 内 有 存储 器 或 以 存储 器 编 址 的 寄存 器 和 IO 空间 ， 为 使 驱动 程序 和 应 用 程序 
能 访问 它们 ， 需 申请 CPU 的 一 段 存储 区 域 以 进行 定位 。 配 置 空间 的 基地 址 寄存 器 用 于 此 目的 。 


:申请 IO 空间 : 配置 空间 中 的 基地 址 寄存 器 用 来 进行 系统 IO 空间 的 申请 。 


:中断 资 源 申 请 : 配置 空间 中 的 中 断 引 脚 和 中 断 线 用 来 同系 统 申 请 中 断 资源 。 仿 移 3Dh 处 为 中 断 引 朋 
寄存 郁 ， 其 信 表 明 PCI 设 备 使 用 了 哪 一 个 中 断 引 脚 ， 对 应 关系 大 
INTD#。 
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图 2.17 ”PCI 配置 空间 


PCI-E (PCI Express) 是 Intel 公 司 提出 的 新 一 代 的 总 线 接口 ，PCI Express 末 用 了 目前 业内 洲 行 的 点 对 
呈 串 行 连接 ， 比 起 PCI 以 及 更 早 的 计算 机 忌 线 的 共 圣 并 行 染 构 ， 每 个 设备 部 有 目 己 的 专用 连接 ， 采 用 上 串 行 
方式 传 输 数 据 ， 不 需要 辐 整 个 总 线 请 求 市 宽 ， 并 可 以 把 数据 传输 率 提 高 到 一 个 很 局 的 频率 ， 达 到 PCI 所 不 


BE DEGE HS ren TIY e 


PCI Express E PT ZR]. ERA HEPC RMA, X REPCIC RU VI PRA SIS. thse v 
无 须 推倒 目前 的 驱动 程序 、 操 作 系 统 ， 束 可 以 支持 PCI Expressi 4 - 


2.3.7 SD 和 SDIO 


SD (Secure Digital) 是 一 种 天 于 Flash 和 存储 卡 的 标准 ， 也 束 是 一 艇 沼 见 的 SD 记忆 卡 ， 在 设计 上 与 
MMC (Multi-Media Card) 保持 了 兼容 。SDHC (SD High Capacity) 是 大 容量 SD 卡 ， 支 持 的 最 大 容量 关 
32GB。2009 年 发 布 的 SDXC (SD eXtended Capacity〉 则 支持 最 大 2TB 大 小 的 容量 。 


SDIO (Secure Digital Input and Output Card， 安 全 数字 输入 输出 卡 〉 在 SD 标准 的 基础 上 ， 定 义 了 除 存 
储 卡 以 外 的 外 设 接 口 。SDIO 主 要 有 两 类 应 用 一 一 可 移动 和 不 可 移动 。 不 可 移动 设备 遵循 相同 的 电气 标 
准 ， 但 不 要 求 符 合 物理 标准 。 现 在 已 经 有 非常 多 的 手机 或 者 手持 装置 都 支持 SDIO 的 功能 ， 以 连接 WiFi、 
蓝牙 、GPS 等 模块 。 





一 般 情 况 下 ， 芯 片 内 部 集成 的 SD 控 制 器 同时 支持 MMC、SD 卡 ， 又 支持 SDIO 卡 ， 但 是 SD 和 SDIO 的 协 
议 还 是 有 不 一 样 的 地 方 ， 文 持 的 命令 也 会 有 不 同 。 


SD/SDIO 的 传输 模式 有 : 
SPI 模式 
1 位 模式 
4 位 模式 


表 2.1 显 示 了 SDIO 接 口 的 引 脚 定义 。 其 中 CLK 为 时 钟 引 脚 ， 每 个 时 钟 周期 传输 一 个 命令 或 数据 位 ; 
CMD 是 命令 引 脚 ， 命 令 在 CMD 线 上 串 行 传 输 ， 是 双 同 半 双 工 的 (命令 从 主机 到 从 卡 ， 而 命令 的 啊 应 是 从 
卡 发 送 到 主机 〉; DAT[0]~DAT[3] 为 数据 线 引 脚 ! 在 SPI 模 式 中 ， 第 8 脚 位 被 当成 中 断 信 号 。 网 2.18 给 出 了 
一 个 SDIO 单 模块 谈 、 写 的 典型 时 序 。 


表 2.1 ”SDIO 接 口 引 脚 定义 
IDE SPI Bist 











m 

: 数据 输入 
‘SSI 地 

电源 电压 





7SS2 Vss2 地 
数据 输出 
中 新 


未 使 用 









直线 17 PE 
9 DAT[2] 数据 线 2 / 读 等 待 


CMD 
(输入 /输出 ) 
SD3 —SDO 
(输入 /输出 ) 





CMD) 
(输入 /输出 ) 
SD3- SDO 
(输入 /输出 ) 





b) SDIO 单 模块 写 


图 2.18 ”SDIO 单 模块 读 、 写 的 典型 时 序 


eMMC (Embedded Multi Media Card) 是 当 表 移动 设备 本 地 存储 的 主流 解雇 方案 ， 目 的 在 于 傈 化 手机 


存储 器 的 设计 。eMMC 就 是 NAND Flash、 闪 存 控制 芯片 和 标准 接口 封装 的 集合 ， 它 把 NAND 和 控制 芯片 直 
接 封 装 在 一 起 成 为 一 个 多 芯片 封装 CMulti-Chip Package, MCP) 芯片 。eMMC 支 持 DAT[0]~DAT[7]8 位 的 


数据 线 。 上 电 或 者 复位 后 ， 上 默认 处 于 1 位 模式 ， 只 使 用 DATI0]， 后 续 可 以 配置 为 4 位 或 者 8 位 模式 。 


2.4 CPLDAIFPGA 
CPLD 〔〈 复 杂 可 编程 逻辑 器 件 ) 由 完全 可 编程 的 与 或 门 阵列 以 及 宏 单 元 构成 。 


CPLD 中 的 基本 逻辑 单元 是 宏 单元 ， 宏 单元 由 一 些 “与 或 "阵列 加 上 触发 器 构成 ， 其 中 * 与 或 "阵列 完成 
组 合 逻 辑 功能 ， 触 发 器 完成 时 序 罗 和 辑 功能 。 宏 单元 中 与 阵列 的 输出 称 为 乘积 项 ， 其 数量 标示 着 CPLD 的 容 
量 。 乘 积 项 阵列 实际 上 就 是 一 个 "与 或 "阵列 ， 每 一 个 交叉 点 都 是 一 个 可 编程 熔 丝 ， 如 果 导 通 就 是 实 
现 “ 与 逻辑 。 在 “与 "阵列 后 一 般 还 有 一 个 “或 "阵列 ， 用 以 完成 最 小 逻辑 表达 式 中 的 “或 "关系 。 图 2.19 所 示 


为 非常 典型 的 CPLD 的 单个 宏 单 元 结构 。 


图 2.20 给 出 了 一 个 典型 CPLD 的 整体 结构 。 这 个 CPLD 由 LAB (逻辑 阵列 模块 ， 由 多 个 宏 单元 组 成 ) 通 
过 PIA〈 可 编程 互 连 阵列 ) 互 连 组 成 ， 而 CPLD 与 外 部 的 接口 则 由 LO 控制 模块 提供 。 


p XB PIA 的 信号 
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图 2.19 ”典型 的 CPLD 的 单个 宏 单元 结构 





LO 控制 模块 


图 2.20 ”典型 的 CPLD 整体 架构 


图 2.20 中 宏 早 元 的 输出 会 经 VO 控制 块 壕 全 VO 引 脚 ，VO 控 制 块 控制 每 一 个 WO 引 脚 的 工作 模式 ， 决 定 
其 为 输入 、 输 出 还 是 双 同 引 脚 ， 并 决定 其 三 态 输 出 的 使 能 闹 控 制 。 


与 CPLD 不 同 ，FPGA (现场 可 编程 门 阵 列 ) 基于 LUT (ERK) 工艺 。 查 找 表 本 质 上 是 一 片 RAM,， 


当 用 户 通 过 诛 理 图 或 HDL 《使 件 摘 述 语言 ) 摘 述 了 一 个 乾 辑 电路 以 后 ，FPGA 开 久 软 件 会 目 动 计算 过 辑 电 
路 所 有 可 能 的 结 示 ， 并 把 结 末 事 和 多 与 入 RAM。 这 样 ， 和 输入 一 组 信号 进行 馆 辑 运算 吏 等 于 答 入 一 个 地 址 进 
行 便 表 以 输出 对 应 地 址 的 内 容 。 


图 2.21 所 示 为 一 个 典型 FPGA 的 内 部 结构 。 这 个 FPGA 由 IOC AA HIER). EAB RA SUS 
ER) 、LAB 和 快速 通道 互 连 构成 。 
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图 2.21 ”典型 的 FPGA 内 部 结构 


IOC 是 内 部 信号 到 WO 引 脚 的 接口 ， 它 位 于 快速 通 伺 的 行 和 列 的 末 疾 ， 每 个 IOC 包 分 一 个 双 同 WO 绥 冲 
从 和 一 个 既 可 作为 输入 寄存 器 也 可 作为 输出 寄存 带 的 触 友 如。 


EAB Gk ASU TAR) 是 一 种 输入 输出 痛 市 有 寄存 邢 的 非常 赤 活 的 RAM。EAB 不 仅 可 以 用 作 和 存储 
第 ， 还 可 以 事先 与 入 查 表 信 以 用 来 构成 如 乘法 着 、 纠 铬 进 辑 等 电路 。 当 用 村 RAM 时 ，EAB 可 配制 成 8 位 、 
4 位 、2 位 和 1 位 长 度 的 数据 格式 。 


LAB 主 要 用 于 逻辑 电路 设计 ， 一 个 LAB 包 括 多 个 LE CZA) ， 每 个 LE 包括 组 合 逻 辑 及 一 个 可 编 
程 触 发 研 。 一 系列 LAB 构 成 的 旬 辑 阵列 可 实现 普通 锡 辑 功能 ， 如 计数 右 、 加 法 郁 、 状 态 机 等 。 


研 件 内 部 信号 的 互 连 和 和 硕 件 引出 妆 之 间 的 信号 互 连 由 快速 通关 连 线 提供 ， 快 速 通 直通 布 于 整个 FPGA 
俐 件 中 ， 是 一 系列 水 平和 垂直 走 同 的 连续 式 布线 通道 。 


表 2.2 所 示 为 一 个 4 输入 LUT 的 实际 远 辑 电路 与 LUT 实 现 方式 的 对 应 关系。 


表 2.2 ”实际 馆 辑 电路 与 查找 表 的 实现 


LUT 的 实际 逻辑 电路 LUT 的 实现 方式 
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CPLD 和 FPGA 的 主要 广 商 有 Altera、Xilinx 和 Lattice 等 ， 它 们 采用 专门 的 开发 流程 ， 在 设计 阶段 使 用 
HDL (如 VHDL、Verilog HDL) 编程 。 它 们 可 以 实现 许多 复杂 的 功能 ， 如 实现 UART、FC 等 IO 控制 芯 
片 、 通 信 算 法 、 音 视频 编 解 码 算 法 等 ， 甚 至 还 可 以 直接 集成 ARM 等 CPU 内 核 和 外 围 电 路 。 


对 于 驱动 工程 师 而 言 ， 我 们 只 需要 这 样 看 待 CPLD 和 FPGA: 如 果 它 完成 的 是 特定 的 接口 和 控制 功 
能 ， 我 们 就 耳 接 把 它 当 成 由 很 多 地 辑 |] CB. dB. mk. Di Aca) 组 成 的 可 完成 一 系列 时 序 远 辑 和 组 合 地 
ZEHJASIC; 如 来 它 完 成 的 是 CPU 的 功能 ， 我 们 束 且 接 把 它 当 成 CPU。 了 驱动 工程 师 眼 里 的 人 硬件 比 IC 设 计 师 
要 宏观 。 


值得 一 提 有 的 是 ，Xilinx 公 司 还 推出 了 ZYNQ 心 厂 ， 内 部 同时 集成 了 两 个 Cortex-A9ARM 多 处 理 右 子 系统 
和 可 编程 馆 辑 FPGA， 同 时 可 编程 馆 辑 可 由 有 用户 配置 。 


2.$ 原理 图 分 析 


原理 图 分 析 的 含义 是 指 通过 陪读 电路 板 的 原理 图 获得 各 种 存储 器 、 外 设 所 使 用 的 人 硬件 资源 、 接 口 和 引 
脚 连 接 关 系 。 若 要 整体 理解 整个 电路 板 的 硬件 组 成 ， 原 理 图 的 分 析 方 法 是 以 主 CPU 为 中 心 向 存储 器 和 外 设 
辐射 ， 步 骤 如 下 。 


1) 疯 读 CPU 部 分 ， 效 知 CPU 的 哪些 请 选 、 中 断 和 集成 的 外 设 控 制 融 在 使 用 ， 列 出 这 些 元 系 a、b、c、 


CPU 引 脚 比较 多 的 时 候 ， 怪 族 可 能 会 梓 分 成 儿 个 模 贡 并 单独 国 在 原理 图 的 不 同 页 上 ， 这 时 应 该 把 相应 
的 部 分 都 分 析 到 位 。 


2) 对 第 1 步 中 列 出 的 元 系 ， 从 原理 图 中 对 应 的 外 说 和 存储 带电 路 中 分 析出 实际 的 使 用 情况 。 
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图 2.22 ”原理 图 中 的 符号 


网络 Cnet) 。 描 述 心 片 、 接 手 件 和 分 离 元 右 件 引 脚 之 则 的 互 连 天 系 ， 每 个 网 络 需 要 根据 信号 的 定义 
赋予 一 个 合适 的 名 字 ， 如 果 没 有 给 网 络 取 名 字 ，EDA 软 件 会 自动 添加 一 个 默认 的 网 络 名 。 添 加 网 络 后 的 
AM29LV160DB 如 图 2.23 所 示 。 


手 述 。 原 理 图 中 会 洪 加 一 些 文 学 来 辅助 手 述 原理 图 (类似 源 代 人 码 中 的 注释 ) ， 如 每 页 页 脚 会 有 该 页 
的 功能 描述 ， 对 重要 的 信和 号， 在 原理 图 的 相应 符号 和 网 络 中 也 会 附带 文字 说 明 。 图 2.24 中 给 出 了 原理 图 中 


的 搞 述 示例 。 
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图 2.23 ”原理 图 中 的 网 络 
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图 2.24 原理 图 中 的 描述 示例 


2.6， 便 件 时 序 分 析 
2.6.1 ”时序 分 析 的 概念 


驱动 工程 师 一 般 不 需要 分 析 便 件 的 时 序 ， 但 是 鉴 于 许多 企业 内 驱动 工程 师 还 需要 承担 电路 板 调 试 的 任 
务 ， 因 此 ， 笃 握 时 序 分 析 的 方法 也 束 比 较 必要 了 了 。 


对 驱动 工程 师 或 硬件 工程 师 而 言 ， 时 序 分 析 的 意思 是 让 芯片 之 间 的 访问 满足 芯片 数据 手册 中 时 序 图 信 
号 有 效 的 先后 顺序 、 采 样 建立 时 间 (Setup Time) 和 保持 时 间 (Hold Time) WER, E ERR LIEDE 
的 时 候 ， 准 确 地 定位 时 序 方面 的 问题 。 


建立 时 间 是 指 在 触发 器 的 时 钟 信号 边沿 到 来 以 前 ， 数 据 已 经 保持 稳定 不 变 的 时 间 ， 如 果 建 立时 间 不 
够 ， 数 据 将 不 能 在 这 个 时 钟 边 沿 被 打 入 触发 器 ， 保 持 时 间 是 指 在 触发 器 的 时 钟 信号 边沿 到 来 以 后 ， 数 据 还 
需 稳定 不 变 的 时 间 ， 如 果 保持 时 间 不 够 ， 数 据 同样 不 能 被 打 入 触发 器 。 如 图 2.25 所 示 ， 数 据 稳定 传输 必须 
满足 建立 时 间 和 保持 时 间 的 要 求 ， 当 然 ， 在 一 些 情况 下 ， 建 立时 间 和 保持 时 间 的 值 可 以 为 零 。 


pp a o o u uua 
(0T wN 2 
建立 时 间 ”保持 时 间 


图 2.25 ”建立 时 间 和 你 持 时 间 


2.6.2 ”典型 的 人 硬件 时 序 


最 典型 的 便 件 时 序 是 SRAM 的 恋 写 时 序 ， 在 读 / 写 过 程 中 涉及 的 信号 包括 地 址 、 数 据 、 片 选 、 读 / 写 、 
"EB f BER ES. X T-—416ebr. 3244 CER:264MD 的 SRAM， 字 节 使 能 表明 哪些 字 节 被 读 写 。 


多 2.26 给 出 了 SRAM 的 谈 时 序 ， 与 时 序 与 此 相似 。 首 先 ， 地 址 总 线 上 输出 要 谈 “〈 与 ) 的 地 址 ， 然 后 友 
出 SRAM 片 选 信号 ， 接 着 输出 读 ( 写 ) 信号 ， 之 后 读 〈 写 ) 信号 要 经 历数 个 等 待 周期 。 当 SRAM 读 〈 写 ) 
速度 比较 慢 时 ， 等 每 周期 可 以 由 MCU 的 相应 寄存 右 设 置 ， 也 可 以 通过 设备 就 续 / 忙 《如 图 2.27 中 的 nWait) 
向 CPU 报告 ， 这 样 ， 读 写 过 程 中 会 自动 添加 等 待 周期 。 


| | | | | | | | | 
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图 2.26 ”SRAM 读 时 序 图 
NOR Flash 和 许多 外 设 控制 芯片 都 使 用 了 类 似 SRAM 的 访问 时 序 ， 因 此 ， 牢 固 掌 握 这 个 时 序 意义 重 
大 。 一 般 ， 在 心 片 数据 手册 给 出 的 时 序 图 中 ， 会 给 出 图 中 各 段 时 间 的 售 义 和 要 求 ， 真 实 的 电路 板 必 须 满足 
蕊 片 数 据 手 册 中 描述 的 建立 时 间 和 保持 时 间 的 最 小 要 求 。 


2.7 心 睫 数据 于 册 疯 读 方 法 


心 盯 数据 手册 往往 长 达 数 日 页 ， 其 全 上 二 页 ， 而 且 全 部 是 英文 ， 从 头 到 尾 不 加 区 分 地 阅读 需要 化 忱 非 
季 长 的 时 间 ， 而 且 不 一 定 能 获取 对 设计 设备 张 动 有 帮助 的 信息 。 心 卢 数据 手册 的 正确 阅读 方法 旦 快速 而 准 
确 地 定位 有 用 信息 ， 午后 赔 读 这 些 信息 ， 忽 略 巨 天 内容。 下 面 以 S3C6410A 的 数据 手册 为 例 来 分 析 阅 读 方 
法 ， 为 了 生 观 地 反映 阅读 过 程 ， 本 廊 的 图 部 是 卫 接 从 数据 手册 中 抓 屏 而 得 到 的 。 


打开 S3C6410A 的 数据 手册 ， 发 现 页 数 为 1378 页 ， 从 头 谈 到 尾 是 不 现实 的 。 

S3C6410A 数 据 手 册 的 第 1 章 'PRODUCT OVERVIEW” (产品 综述 ) 是 必 读 的 ， 通 过 阅读 这 一 部 分 可 以 
获知 整个 蕊 片 的 组 成 。 这 一 半 往 往 会 给 出 一 个 蕊 片 的 整体 结构 图 ， 并 对 蕊 片 内 的 主要 模块 进行 一 个 简洁 的 
摘 述 。S3C6410A 的 整体 结构 图 如 图 2.27 所 示 〈( 见 数据 手册 第 61 页 )。 


1.2 FEATURES 
This section summarizes the features of the S3C6410X. Figure 1-1 is an overall block diagram of the S3C6410X. 
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图 2.27 ” S3C6410A 数 据 手 册 中 的 心 厅 结构 图 


第 2~43 章 中 的 每 一 章 都 对 应 S3C6410A 人 整体 结构 图 中 的 一 个 模块 ， 图 2.28 为 从 Adobe Acrobat t HI 
取 的 S3C6410A 数 据 手册 的 目 孙 结构 图 。 


"B2:i"MemoryMap" (内存 映 射 ) 比较 关键 ， 对 于 定位 存储 器 和 外 设 所 对 应 的 基 址 有 直接 指导 


这 一 部 分 应 该 细 看 。 





01-Overview 
02-MemoryMap 
03-SystemController 
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05-DRAMC 
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08-NFCON 
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10-GPIO 
11-DMAC 
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14-DisplayController 
15-Post Processo 
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17-TV Encoder 
18-Graphics2D 
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20-CAMIF 
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22-JPEG Codec 
23-Modem Interface 
24-Host Interface 
25-USB HOST Controll 
26-USB2.0 HS OTG 
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31-UART 
32-PWM 
33-RTC 
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要 是 分 析 数 据 、 


控制 、 地 址 寄存 器 
(数据 手册 中 会 给 出 步 又 ， 有 的 还 


(数据 手册 中 一 般 会 以 表格 列 出 ) 的 访问 控制 和 有 具体 设备 的 操作 流程 
壁 如 为 了 编写 S3C6410A 的 PC 控制 器 


不 会 给 出 流程 图 ) 。 
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图 2.28 ”S3C6410A 数 据 手册 的 日 录 结 构 
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» SA Re AN SREY, DA AH ed E. 


TEAM bed EA ES 2..29 FÉ] 3 41-6 RE oc RIE A 2. 30H PATE DILE AL e 


544 = “ELECTRICAL DATA" ON FHSAA, ZER2.28 mH) , fi 
压 、 电 流 和 各 种 工作 模式 下 的 时 序 、 建 立时 间 和 保持 时 间 的 要 求 。 所 有 的 数据 手册 都 会 包含 
一 半 对 于 便 件 工程 师 比 较 关 键 ， 但 是 ， 一 般 来 说 ， 驱 动工 程 师 并 不 需要 阅读 。 


第 45 章 “MECHANICAL DATA”( 机 械 数据 ) 描述 芯片 的 物理 特性 、 尺 十 和 封装 
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图 2.29 


Address 


IICCON IIC Channel 0 Bus control register 
0x7FO0F000 IIC Chan 


Tx/Rx Interrupt (5) 


Interrupt pending flag (2) 
(3) 


Transmit clock value (4) 


Acknowledge generation [ 

(1) 0: Disable 
1: Enable 
n Rx 


Tx clock source selection urce c 
selection bit 
| ble, 


[3:0] 


30.11.1 MULTI-MASTER IIC-B US CONTROL (IICCON) REGISTER 


mw | — Bespi | Reset Value 


nel 1 Bus control register 


inital State 


7] |IIC-bus acknowledge (ACK) enable bit. 


In Tx mode, the IICSDA is free in the ACK time. 
In Rx mode, the IICSDA is L in the ACK time. 


Source clock of IIC-bus transmit clock prescaler 


0: IICCLK = PCLK /16 
1: IICCLK = PCLK /512 


0: 1) No interrupt — ng (when read). 
2) Clear pending condition & 


Resume 
1: 1) Interrupt is 
2) N/A (when 


the wa ation Healt e). 
read 


Lai ding (whe ) 
te) 





IIC-Bus transmit c ES scaler Undefined 
IIC-Bus transmit c agri ncy is s determined by this 
4-bit pre escaler v alue, according to the following 


for 
Tx clock = IICCLK/IICCON[3:0] 1). 
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类 似 章节 ， 这 


， 使 件 工 程 师 会 依据 


mM, 
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30.10 FLOWCHARTS OF OPERATIONS IN EACH MODE 
The following steps must be executed before any IIC Tx/Rx operations. 


1. Write own slave address on |ICADD register, if needed. 
2. Set lICCON register. 

a) Enable interrupts 

b) Define SCL period 
3. SetlICSTAT to enable Serial Output 


(START ) 
Master Tx mode has 
been configured. 
Write slave address to 
ICOS. 


Write OFO (WT 
Start) tp IICSTAT. 


The data of the IICDS is 
transmitted . 


N 
Write new data Write 0x00 (MT 
transmitted to IICDS. Stop) o IICSTAT. 


Clear pending bit . 


The data of the IICDS is Wait until the stop 
shifted to SDA. condifion takes effect. 
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2.8 AXARI KIE H 


2.8.1 HHK 
在 电路 板 调试 过 程 中 主要 使 用 万 用 表 的 两 个 功能 。 
测量 电 平 。 


使 用 二 极 害 挡 测量 电路 板 上 网 络 的 连 退 性 ， 当 示 波 带 被 设置 在 二 极 害 接 ， 测 量 连 通 的 网 络 会 友 出 “ 呆 
m EASA, GU, KAER., 


2.8.2 ”示波器 


示 波 融 是 利用 电子 示 波 管 的 特性 ， 将 人 眼 无 法 和 直接 观 测 的 交 变 电信 号 转换 成 图 像 ， 显 示 在 实 光 屏 上 以 
便 测 量 的 电子 仪 苍 。 它 是 观察 数字 电路 实验 现象 、 分 析 实 验 中 的 问题 、 测 量 实验 结 束 必 不 可 少 的 重要 仪 


BJ 


AN o 


使 用 示波器 时 应 主要 注意 调节 垂直 偏转 因数 选择 CVOLTS/DIVO 和 微调 、 时 基 选 择 (TIME/DIV) 和 
微调 以 及 触发 方式 。 


如 果 VOLTS/DIV 设 置 不 合理 ， 则 可 能 造成 电压 幅 皮 超出 整个 屏 适 或 在 屏 俊 上 变动 太 过 微小 以 致 无 法 
观测 的 现象 。 图 2.31 所 示 为 同一 个 波形 在 VOLTS/DIV 设 置 由 大 到 小 变化 过 程 中 的 示意 图 。 
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图 2.31 示波器 的 VOLTS/DIV 设 置 与 波形 


如 果 TIME/DIV 设 置 不 合适 ， 则 可 能 造成 波形 混 迭 。 混 碗 意味 着 屏幕 上 显示 的 波形 频率 低 于 信号 实际 
频 识 。 这 时 低 ， 可 以 通过 缓慢 改变 扫 速 TIME/DIV 到 较 快 的 时 基 挡 提 融 波形 频 京 ， 如 果 波 形 频 读 参 数 急 剧 
改变 或 者 晃动 的 波形 在 某 个 较 快 的 时 基 挡 稳定 下 来 ， 说 明之 前 发 生 了 波形 混和 迭 。 根 据 奈 奎 斯 特定 理 ， 采 样 
速率 至 少 高 于 信号 高 频 分 量 的 两 倍 才 不 会 发 生 混 欠 ， 如 一 个 500MHz 的 信号 ， 人 至 少 需要 1GS/s 的 采样 速 
率 。 图 2.32 所 示 为 同一 个 波形 在 TIME/DIV 设 置 由 小 到 大 变化 过 程 中 的 示意 图 。 
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E232 “示波器 的 TIME/DIV 设 置 与 波形 
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大 致 相当 于 物理 学 领域 中 的 牛顿 定律 。 


在 示 站 和 货 的 使 用 过 程 中 ， 要 设 症 触及 方式 和 触 妥 和 模式。 触及 的 目的 是 为 了 在 每 次 巡 示 的 时 候 都 从 波形 
的 同一 位 置 开 始 ， 沈 形 可 以 稳定 显示 。 一 般 示 小 和 硕 孝 文 持 边 泽 和 触 肥 ， 在 东 些 情况 下 ， 我 们 也 要 使 用 视频 触 
发 、 毛 刺 触 发 、 脉 客 触 发 、 和 斜率 触发 、 码 型 触发 等 。 设 定 正 确 的 触发 ， 可 以 大 大 提高 测试 过 程 的 灵活 性 ， 
开 人 简化 工作 。 


AN Sa AOC EES AACR: 目 动 模式 、 徊 规模 式 和 单 次 模式 。 


- 目 动 模式 〈 示 波 带 面板 上 的 AUTO 按 饥 )。 在 这 种 模式 下 ， 当 触 友 没 有 友 生 时 ， 示 波 卓 的 扫 插 系统 会 
AR De Be WE BUT ES BET Tis 而 当 有 触 友 肥 生 时 ， 扫 拍 系 统 会 尽量 按 信 和 写 的 频 京 进行 扫 手 。 因 此 ， 
AUTO 侦 式 下 ， 不 论 和 触及 条 件 是 个 满 足 ， 示 小 带 都 会 产生 扫 朱 ， 都 可 以 在 屏 医 上 看 到 有 变化 的 扫描 线 ， 这 
是 这 种 柑 式 的 特 抬 。 一 般 来 说， 在 对 信 写 的 特点 个 是 很 了 解 的 时 候 ， 可 先 选 择 目 动 模 式 。 


-常规 模式 (示波器 面板 上 的 NORM 或 NORMAL 按 钮 ) 。 在 这 种 模式 下 ， 示 波 器 只 有 当 触 发 条 件 满足 
了 才 进 行 扫 描 ， 如 果 没 有 触发 ， 就 不 进行 扫描 。 因 此 在 这 种 模式 下 ， 如 果 没 有 触发 ， 对 于 模拟 示波器 而 
言 ， 用 户 不 会 看 到 扫 拉 线 ， 对 于 数字 示 波 右 而 言 ， 丰 会 看 到 波形 更 新 。 


: 单 次 模式 (示波器 面板 上 的 SIGL 或 SINGLE 按 钮 ) 。 这 种 模式 与 NORMAL 模 式 有 一 点 类 似 ， 就 是 只 
有 当 触 发 条 件 满足 时 才 产 生 扫 摘 ， 否 则 不 扫描 。 而 不 同 在 于 ， 这 种 扫 摘 一 旦 产生 并 完成 后 ， 示 波 器 的 扫描 


系统 即 进入 一 种 休止 状态 ， 即 使 后 面 再 有 满足 触及 条 件 的 信号 出 现 也 不 再 进行 扫 朱 ， 也 融 是 触及 一 砍 只 扫 
手 一 次 。 实 际 工 作 中 ， 可 能 要 根据 情况 在 目 动 、 第 规 和 单 次 模式 之 间 进 行 切换 。 


2.8.3. JE RA TAX 


X7 HAY Br Dose fU HIST PE MU aN BC ER BF I S FEET SEAN Mas REREH ze FS ESF 
AXE. GANA IF], WROTE ANA EVES HSA, us Re NP SB GEIM) 。 在 设 定 
SESH Za, WOT DOW RAE Mis Ss, TAS HRA AL, IK PBS HR AA 
0. 


例如 ， 如 果 以 n MHz 采样 率 测 量 一 个 信号 ， 赐 辑 分 析 仪 会 以 1000m ns 为 周期 采样 信号 ， 当 参考 电压 议 
定 为 1.5V 时 ， 超 过 1.5V 则 判定 为 1， 低 于 1.5V 则 为 0， 将 逻辑 1 和 0 连接 成 连续 的 波形 ， 工 程 师 依 据 此 连续 
波形 可 寻找 时 序 问题 。 


高 并 逻辑 分 析 仪 会 安装 Windows 操 作 系 统 并 提供 非常 友善 的 逻辑 分 析 应 用 软件 ， 在 其 中 可 方便 地 编辑 
探 针 、 信 号 并 查看 波形 。 这 种 逻辑 分 析 仪 一 般 称 为 传统 逻辑 分 析 仪 ， 其 功能 强大 ， 数 据 采 集 、 分 析 和 波形 
显示 融 于 一 身 ， 但 是 价格 十 分 昂贵 。 有 的 逻辑 分 析 仪 则 没有 图 形 界 面 ， 但 是 可 以 通过 USB 等 接口 与 PC 连 
接 ， 分 析 软 件 则 工作 在 PC 上 。 这 种 逻辑 分 析 仪 一 般 称 为 虚拟 逻辑 分 析 仪 ， 它 是 PC 技术 和 测量 技术 结合 的 
产物 ， 触 发 和 记录 功能 由 虚拟 逻辑 分 析 仪 硬件 守成， 波形 显示 、 输 入 设置 等 功能 由 PC 完成 ， 因 此 比较 廉 
价 。 图 2.33 给 出 了 两 种 逻辑 分 析 仪 。 
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图 2.33 ”逻辑 分 析 仪 


你 辑 分 析 仪 的 波形 可 以 最 未 地址、 数据、 控制 信号 及 任意 外 部 探头 信和 喜 的 变化 轨迹 ， 在 使 用 之 前 应 多 
编辑 每 个 探头 的 信号 名 。 之 后 ， 根 据 波形 还 原 出 总 线 的 工作 时 序 ， 图 2.34 给 出 了 一 个 IC 的 例子 。 目 前 ， 
很 多 进 辑 分 析 仪 都 目 市 了 协议 分 析 能 力 ， 可 以 目 动 分 析出 总 线 上 传输 的 命令 、 地 址 和 数据 等 信息 。 








图 2.34 ”从 逻辑 分 析 仪 波形 还 原 了 fC 总 线 


逻辑 分 析 仪 具有 超 强 的 逻辑 跟踪 分 析 功 能 ， 它 可 以 捕获 并 记录 嵌入 式 处 理 器 的 总 线 周 期 ， 也 可 以 捕获 
如 实时 跟踪 用 的 ETM 接 口 的 程序 执行 信息 ， 并 对 这 些 记录 进行 分 析 、 译 码 且 还 原 出 应 用 程序 的 执行 过 


程 。 因 此 ， 可 使 用 馆 辑 分 析 仪 通过 和 触发 接口 与 ICD 《在 线 调试 器 ) 协调 工作 以 补 苑 ICD 在 跟踪 功能 方面 的 
人 不足。 秘 辑 分 析 仪 与 ICD 协 作 可 为 工程 病 提 供 断 点 、 般 肥 和 跟踪 调试 手段 ， 如 图 2.3$ 所 示 。 





ICD — T 7A ICE GEA Aas) 混 消 的 概念 ，ICE 本 刁 需 要 完全 仿真 CPU 的 行为 ， 可 以 从 
物理 上 完全 普 代 CPU， 而 ICD 则 只 是 与 必 搬 内 部 的 租 入 却 ICE 早 元 通过 JTAG 等 接口 互通 。 因 此 ， 对 ICD 的 
便 件 性 能 要 求 远 低 于 ICE。 目 前 市 面 上 出 现 的 很 多 号 称 为 ICE 的 产品 实际 上 是 ICD 等 ， 但 是 人 们 一 般 也 称 它 
们 为 ICE。 


逻辑 分 析 仪 





图 2.35 ”逻辑 分 析 仪 与 ICD 协 作 


本 和 章 简 单 地 讲解 了 张 动 软件 工程 病 必 备 的 硬件 基础 知识 ， 拍 述 了 处 理 规 、 存 储 磺 的 分 基 以 及 各 种 处 理 
aay FF fas RPS i, drop Y E Lh el ie he A pS YF A 


此 外 ， 本 章 还 讲述 了 对 驱动 工程 师 进行 实际 项 目 开 友 有 帮助 的 原理 图 、 健 件 时 友 分 析 方 法 ， 心 片 数据 
手册 阅读 方法 以 及 万 用 表 、 示 波 人 融和 远 辑 分 析 仪 的 使 用 方法 。 
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3.1~3.2 节 讲解 了 Linux 内 核 的 演变 及 新 版 Linux 内 核 的 特点 。 


3.3 节 分 析 了 Linux 内 核 源 代 人 码 目 录 结 构 和 Linux 内 核 的 组 成 部 分 及 其 天 系 ， 并 对 Linux 的 用 户 空 间 和 内 


3.4 广 讲述 了 Linux 内 核 的 编 详 及 内 核 的 引 叶 过程 。 除 此 之 外 ， 还 搬 述 了 在 Linux 内 核 中 新 增 程序 的 方 
驱动 工程 帅 编 写 的 设备 驱动 也 应 该 以 此 方式 洪 加 。 


avs 
DH 


3.5 节 阐述 了 Linux 下 C 编 程 的 命名 习惯 以 及 Linux 所 使 用 的 GNU C 针 对 标准 C 的 扩展 语法 。 


3.6 闻 讲解 了 Linux 的 工具 链 以 及 工具 链 对 浮 点 的 文 持 情况 。 


3.7 市 介绍 了 公司 或 学 校 的 实验 室 建 设 情况 。 


3.8 节 介绍 了 Linux 下 的 串口 工具 。 


3.1 Linux 内 核 的 发 展 与 演变 


Linux 操 作 系 统 是 UNIX 操 作 系 统 的 一 种 克隆 系统 ， 是 一 种 关 UNIX 操 作 系 统 ， 诞 生 于 1991 年 10 月 5 日 
(第 一 次 正式 同 外 公布 的 时 间 〉 ， 起 初 的 作者 是 Linus Torvalds。Linux 操 作 系 统 的 诞生 、 发 展 和 成 长 过 程 
信赖 着 5 个 重要 支柱 : UNIX 操 作 系 统 、Minix 操 作 系 统 、GNU 计 划 、POSIX 标 准 和 Internet。 


1.UNIX 操 作 系 统 


UNIX 操 作 系 统 是 美国 贝尔 实验 室 的 Ken.Thompson 和 Dennis Ritchie 于 1969 年 夏 在 DEC PDP-7 小 型 计算 
机 上 开发 的 一 个 分 时 操作 系统 。Linux 操 作 系 统 可 看 作 UNIX 操 作 系 统 的 一 个 殉 隆 版 本 。 


2.Minix 操 作 系 统 


Minix 操 作 系 统 也 是 UNIX 的 一 种 元 隆 系 统 ， 它 于 1987 年 由 著名 计算 机 教授 Andrew S.Tanenbaum 开 发 完 
成 。 有 开放 源 代 人 码 的 Minix 系 统 的 出 现在 全 世界 的 大 学 中 刊 起 了 学 习 UNIX 系 统 的 谋 风 。Linux 刚 开始 束 是 
参照 Minix 系 统 于 1991 年 开发 的 。 


3.GNU 计 划 


GNU 计 划 和 自由 软件 基金 会 (FSF) 是 由 Richard M.Stallman 于 1984 年 创办 的 ，GNU 是 “GNU's Not 
UNIX” 的 缩写 。 到 20 世 纪 90 年 代 初 ，GNU 项 目 已 经 开发 出 许多 高 质量 的 免费 软件 ， 其 中 包括 emacs 编 辑 系 
统 、bash shell 程 序 、gcc 系 列 编译 程序 、GDB 调 试 程序 等 。 这 些 软件 为 Linux 操 作 系 统 的 开发 创造 了 一 个 合 
适 的 环境 ， 是 Linux 诞 生 的 基础 之 一 。 没 有 GNU 软 件 环 境 ，Linux 将 寸步 难 行 。 因 此 ， 严 格 来 
Wü, "Linux" MIZERI“ GNU/Linux" RA- 


下 面 从 左 到 右 依 次 为 前 文 所 提 到 的 5 位 大 师 Linus Torvalds, Dennis Ritchie, Ken. Thompson. Andrew 
S.Tanenbaum、Richard M.Stallman。 但 愿 我 们 能 够 退 随 大 师 的 是 迹 ， 让 目 己 不 断 地 成 长 与 进步 。Linus 
Torvalds 的 一 番 话 甚 为 有 道理 : “Most good programmers do programming not because they expect to get paid or 
get adulation by the public, but because it is fun to program.” 技 术 成 长 的 源 动 力 应 该 是 兴趣 而 非 其 他 ， 只 有 兴 
趣 才 可 以 文 撑 一 个 人 持续 不 断 地 十 年 如 一 日 地 努力 与 学 习 。Linus Torvalds 本 人 人， 虽然 已 经 是 一 代 大 师 ， 仍 
然 在 不 断 地 千 理 和 合并 Linux 和 内 核 的 代码 。 这 点 ， 在 国内 浮躁 的 学 术 所 围 之 下 ， 几 乎 是 不 可 思议 的 。 我 
想 ， 中 国 梦 至少 包 售 每 个 码 农 都 可 以 因为 扩 术 成 长 而 得 到 人 生出 彩 的 机 会 。 





4.POSIX 标 准 


POSIX (Portable Operating System Interface， 可 移植 的 操作 系统 接口 ) ze HIEEEMISO/IECH RH — 2R. 
标准 。 访 标准 基于 现 有 的 UNIX 实 践 和 经 验 完 成 ， 摘 述 了 棵 作 系 统 的 调用 服务 接口 ， 用 于 你 证 编写 的 应 用 
程序 可 以 在 源 代 码 级 上 在 多 种 操作 系 纺 中 移植 。 该 标准 在 推动 Linux 操 作 系 纺 明 看 正规 化 发展， 和 古 Linux 前 
TET TS e 


5. 互 联网 


如 果 没 有 互联 网 ， 没 有 表 布 全 世界 的 无 数 计算 机 骇 客 的 无 私 奉 献 ， 那 么 Linux 最 多 只 能 发 展 到 Linux 
0.13 (0.95) 版 本 的 水 平 。 从 Linux 0.9$ 厂 开始 ， 对 内 核 的 许多 改进 和 扩充 均 以 其 他 人 为 主 了 ， 而 Linus 以 
及 其 他 维护 者 的 主要 任务 开始 变 成 对 内 核 的 维护 和 决定 是 否 采 用 某 个 补丁 程序 。 


表 3.1 插 述 了 Linux 操 作 系 统 曾 要 版 本 的 变迁 历史 及 各 版 本 的 主要 特 拟 。 
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HH 
表 3.1 Linux 操 作 系 统 版 本 的 历史 及 特点 
Linux 0.1 1991 年 10 H 最 初 的 原型 
Linux 1.0 1994 ^F. 3 H 包含 了 386 的 官方 文 持 ， 仅 文 持 单 CPU 系统 
Linux 1.2 1995 年 3 月 常 一 个 包 舍 多 平台 (Alpha, Sparc, MIPS 等 ) 文 持 的 官方 版 本 
5^E 6H 
t 1H 
1H 


Linux 2.0 


1996 年 6 包含 很 多 新 的 平台 支持 ， 最 重要 的 是 ， 它 是 第 一 个 支持 SMP (对 称 多 
处 理 器 ) 体系 的 内 核 版 本 


Linux 2.2 1999 年 ] 极 大 提升 SMP 系统 上 Linux 的 性 能 、 并 支持 更 多 的 便 件 


2001 4 进一步 提升 了 SMP 系统 的 扩展 性 .同时 也 集成 了 很 多 用 于 支持 果 面 系 
统 的 特性 : USB, PC F (PCMCIA) 的 支持 ， 内 置 的 即 插 即 用 等 


无 论 是 对 于 企业 服务 需 还 是 对 于 其 和 人 式 系统 ，Linux 2.6 都 是 一 个 巨 
大 的 进步 。 对 高 冰 机 融 来 说 ， 新 特性 针对 的 是 性 能 改进 、 可 扩展 性 、 和 大 
2003 年 12 月 ~ 1 吐 率 ， 以 及 对 SMP 机 器 NUMA AY ee. MERA SM, BI TN 
2011 年 5 月 休 系 结构 和 处 理 器 类 型 。 包 括 对 那些 没有 硬件 控制 的 内 存 管理 方案 的 无 
MMU 系统 的 支持 。 同 样 ， 为 了 满足 桌面 用 户 群 的 需要 ， 添 加 了 一 整套 新 
的 音频 和 多 媒体 驱动 程序 
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Linux 2. 


Linux 2.6.0 ~ 2.6.39 


Linux 3.0 ~ 3.19. 


Linux 4.0-rcl 至 今 


开发 热点 聚焦 于 虚拟 化 、 新 文件 系统 、Android、 新 体系 结构 支持 以 及 
性 能 优化 等 





Linux 内 核 通 党 以 2~3 个 月 为 周期 更 新 一 座 大 的 版 本 号， 如 Linux 2.6.345€ f£20104F5 H RAH, Linux 
2.6.35 的 及 布 时 间 则 为 2010 年 8 月 。Linux 2.6 的 最 后 一 个 版 本 古 Linux 2.6.39， 之 后 Linux 内 核 过 疲 到 Linux 
3.0 版 本 ， 同 样 以 2~3 个 月 为 周期 更 新 小 数 点 后 第 一 位 。 因 此 ， 内 核 Linux 3.x 时 代 ，Linux 3 和 Linux 2.6 的 地 
位 对 等 ， 因 此 ，Linux 2.6 时 代 的 版 本 变更 是 Linux 2.6.N~2.6.N+1 以 2~3 个 月 为 周期 递 进 ， 而 Linux 3.x 时 代 
后 ， 则 是 Linux 3.N~3.N+1 以 2~3 个 月 为 周期 递 进 。Linux 3.x 的 最 后 一 个 版 本 是 Linux 3.19。 


在 Linux 内 核 版 本 发 布 后 ， 还 可 以 进行 一 个 修复 bug 或 者 少量 特性 的 反 向 移植 (Backport， 即 把 新 版 本 
中 才 有 的 补丁 移植 到 已 经 发 布 的 老 版 本 中 ) 的 工作 ， 这 样 的 版 本 以 小 数 点 后 最 后 一 位 的 形式 发 布 ， 如 
Linux 2.6.35.1、Linux 2.6.35.2、Linux 3.10.1 和 Linux 3.10.2 等 。 此 类 已 经 发 布 的 版 本 的 维护 版 本 通常 是 由 
Greg Kroah-Hartman 等 人 进行 管理 的 。Greg Kroah-Hartmanzé 4E LDD3 (《Linux 设 备 驱动 〈 第 3 版 ) 》 的 
全 


天 于 Linux 内 核 从 Linux 2.6.3925 E 7JLinux 3.0 的 变化 ， 按 照 Linus Torvalds 的 解释 ， 并 没有 什么 大 的 改 


AE: “NOTHING.Absolutely nothing.Sure, we have the usual two thirds driver changes, and a lot of random 


fixes, but the point 1s that 3.01s*just*about renumbering, we are very much*not*doing a KDE-4or a Gnome- 
3here.No breakage, no special scary new features, nothing at all like that.” 因 此 ， 简 单 来 说 ， 版 本 号 变更 
73"3.x" AIIE AME REN” o 


天 于 Linux 内 核 每 一 个 版 本 具体 的 变更 ， 可 以 参考 网 页 http://kernelnewbies.org/LinuxVersions， 比 如 


Linux 3.15 和 针对 Linux 3.14 的 变更 归纳 在 : http://kernelnewbies.org/Linux 3.15. 


PEA BS ENE, 20154625230, EWK f Linux 4.0-rcl 的 诞生 ， 而 理由 仍然 是 那么 “无 厘 


..after extensive statistical analysis of my G+ polling, I've come to the inescapable conclusion that internet 


polls are bad. 
Big surprise. 


But"Hurr durr I'ma sheep"trounced"I like online polls"by a 62-to-38% margin, ina poll that people weren't 


even supposed to participate in. 


Who can argue with solid numbers like that 5796 votes from people who can't even follow the most basic 


directions 


In contrast, "v4.0"beat out"v3.20"by a slimmer margin of 56-to-44%, but with a total of 29110 votes right 


now. 


Now, arguably, that vote spread 1s only about 3200 votes, which 1s less than the almost six thousand votes 


that the"please ignore"poll got, so it could be considered noise. 


But hey, I asked, so I'll honor the votes. 


A3. 1n] UGH, Linux it — BRA SCH ES ICRU, MEP FIA BARA ba ee, SCRE) 12 0 
PEN DAL, Sete ear NTE REI 3 TT I ACHE ARMER, Linux A AEA A A eee A, FEE 
XE NR 8 EA Linux P322 ELAS ALB] i, ACE AES ASP Ae OR FP RZ Linux ^ i BEA ofa AA 
Hot, LinuxA Kae — P REA ei. X Linux iA Ze, A Be iF 


http://www. linuxfoundation.org/news-media/IwfH) «Linux Weather Forecast) 。 


ER f Linux A AK Er uj] fe fee Be PEARLA, —H#E) TS S Linux NARE H RFE P S 
Fe AIP SAID ARE, lle f 5 SETA PCHUARS 48 Linux 47h (Distro) ， 如 Ubuntu、Red Hat. 
Fedora、Debian、SuSe、Gentoo 等 ， 国 内 的 红旗 Linux 开 发 商 中 科 红 旗 则 已 经 宣布 倒闭 。 


再 者 ， 和 针对 区 入 式 系 统 的 应 用 ， 一 些 集 成 和 优化 内 核 、 开 发 工具 、 中 辐 件 和 UI 框架 的 钥 入 式 Linux 伞 
开发 出 来 了 ， 例 如 MontaVista Linux、Mentor Embedded Linux、MeeGo、Tizen、Firefox OS 等 。 


Android 采 用 Linux 内 核 ， 但 是 在 内 核 里 加 入 了 一 系列 补丁 ， 如 Binder、ashmem、wakelock、1low 
memory killer、RAM_CONSOLE 等 ， 目 前 ， 这 些 补 本 中 的 绝 大 多 数 已 经 进入 Linux 的 产品 线 。 


图 3.1 显 示 了 Linux 2.6.13 以 来 每 个 内 核 版 本 参与 的 人 、 组 织 的 情况 以 及 每 次 版 本 演进 的 时 候 被 改变 的 
代码 行 数 和 补丁 的 数量 。 目 前 每 次 版 本 升级 ， 痢 有 分 布 于 200 多 个 组 织 超 过 1000 人 提交 代码 ， 被 改变 的 代 
但 行 数 超过 100 万 行 ， 补 丁 数量 达 1 万 个 。 
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3.2 Linux 2.6 后 的 内 核 特 点 


Linux 2.6 内 核 是 Linux 开 发 者 群 洛 一 个 寄 子 厚望 的 版 本 ， 从 2003 年 12 月 直人 到 2011 年 7 月 ， 内 核 重 新 进行 
了 版 本 的 编号 ， 从 而 过 疲 到 Linux 3.x 版 本 直到 成 书 时 的 Linux 4.0-rcl 。 


Linux 2.6 相 对 于 Linux 2.4 有 相当 大 的 改进 ， 主 要 体现 在 如 下 几 个 方面 。 
1 .新 的 调度 需 


Linux 2.6 以 后 版 本 的 Linux 内 核 使 用 了 新 的 进程 调度 算法 ， 它 在 高 负载 的 情况 下 有 极其 出 色 的 性 能 ， 
并 且 当 有 很 多 处 理 器 时 也 可 以 很 好 地 扩展 。 在 Linux 内 核 2.6 的 早期 采用 了 O CD. 算法 ， 之 后 转移 到 
CFS (Completely Fair Scheduler， 完 全 公平 调度 ) 算法 。 在 Linux 3.14 中 ， 也 增加 了 一 个 新 的 调度 类 : 
SCHED DEADLINE， 它 实现 了 EDF (Earliest Deadline First， 最 早 截止 期 限 优 先 ) 调度 算法 。 


2. 内 核 抢占 


在 Linux 2.6 以 后 版 本 的 Linux 内 核 中 ， 一 个 内 核 任务 可 以 被 抢占 ， 从 而 提 融 系 统 的 实时 性 。 这 样 做 最 
主要 的 优势 在 于 ， 可 以 极 大 地 增强 系统 的 用 户 交 互 性 ， 用 户 将 会 觉得 鼠标 单 击 和 击 键 的 事件 得 到 了 更 快速 
的 啊 应 。Linux 2.6 以 后 的 内 核 版 本 还 是 存在 一 些 不 可 抢占 的 区 间 ， 如 中 断 上 下 文 、 软 中 断 上 下 文 和 上 自 旋 锁 
锁 住 的 区 间 ， 如 果 给 Linux 内 核 打 上 RTPreempt 补 于 ， 则 中 断 和 软 中 断 都 被 线程 化 了 ， 自 旋 锁 也 被 互 斥 体 
符 换 ，Linux 内 核 变 得 能 文 持 便 实 时 。 


如 图 3.2 所 示 ， 左 侧 是 Linux 2.4， 碳 侧 是 Linux 2.6 以 后 的 内 核 。 在 Linux 2.4 的 内 核 中 ， 在 耻 Q1 的 中 断 
服务 程序 唤醒 RT《〈 实 时 ) 任务 后 ， 必 须要 等 待 前 面 一 个 Normal (普通 ) 任务 的 系统 调用 完成 ， 返 回 用 户 
空间 的 时 候 ，RTI 任 务 才能 切入 ;而 在 Linux 2.6 内 核 中 ，Normal 任 务 的 关键 部 分 “如 自 旋 锁 ) 结束 的 时 
候 ，RT 任 务 就 从 内 核 切 入 了 。 不 过 也 可 以 看 出 ，Linux 2.6 以 后 的 内 核 仍 然 存在 中 断 、 软 中 断 、 自 旋 锁 等 
原子 上 下 文 进程 无 法 抢占 执行 的 情况 ， 这 是 Linux 内 核 本 身 只 提供 软 实时 能 力 的 原因 。 
























关键 部 分 spain 关键 部 分 
系统 调用 | 外 部 事 人 MITTIT 
RT " 系统 调用 完成 RT 。 用 完成 | NFP 系统 调用 完成 
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普通 交通 
系统 调用 Lm mmu 系统 调用 — "uunc 
IRQI IRQI 
处 理 程序 m 处 理 程序 
IRQ2 IRQ2 
唤醒 RT 任务 唤醒 RT 任务 
RT 任务 运行 RT 任务 运行 


图 3.2” Linux 2.4 和 2.6 以 后 的 内 核 在 抢占 上 的 区 别 
3. 改 进 的 线程 模型 


Linux 2.6 以 后 版 本 中 的 线程 采用 NPTL (Native POSIX Thread Library， 本 地 POSIX 线 程 库 ) 模型 ， 操 


作 速 度 得 以 极 大 提高 ， 相 比 于 Linux 2.4 内 核 时 代 的 LinuxThreads 模 型 ， 它 也 更 加 遵循 POSIX 规 范 的 要 求 。 
NPTIL 没 有 使 用 LinuxThreads 模 型 中 采用 的 管理 线程 ， 内 核 本 映 也 增加 了 FUTEX (Fast Userspace Mutex, TA 
RAP AS ARS) ， 从 而 减 小 多 线程 的 通信 开销 。 


4. 虚 拟 内 存 的 变化 


从 虚拟 内 存 的 角度 来 看 ， 新 内 核 融 合 了 rmap〔〈 反 向 映射 ) 技术 ， 显 著 改 善 虚 拟 内 存在 一 定 大 小 负载 
下 的 性 能 。 在 Linux 2.4 中 ， 要 回收 页 时 ， 内 核 的 做 法 是 过 历 每 个 进程 的 所 有 PTE 以 判断 该 PTE 是 人 否 与 该 页 
建立 了 映射 ， 如 果 建 立 了 ， 则 取消 该 映射 ， 最 后 无 PTE 与 该 页 相关 联 后 才 回 收 该 页 。 在 Linux 2.6 后 ， 则 建 
立 反 向 上 映射， 可 以 通过 页 结构 体 快 速 寻 找到 页 面 的 映射 。 


ee oe 


Linux 2.6 厂 内 核 增 加 了 对 日 总 文件 系统 功能 的 文 持 ， 解 凑 了 Linux 2.4 版 本 在 这 方面 的 个 在。Linux 2.6 
版 内 核 在 文件 系统 上 的 关键 变 化 还 包括 对 扩展 属性 及 POSIX 标 准 访问 控制 的 文 持 。ext2/ext3/ext4 作 为 大 多 
数 Linux 系 统 灶 认 安 儿 的 文件 系统 ， 在 Linux 2.6 厂 内 核 中 增加 了 对 扩展 属性 的 文 持 ， 可 以 给 指定 的 文件 在 
MEARS AKA TUBE o 


在 文件 系统 方面 ， 当 前 的 研究 热点 是 基于 B 树 的 Btrfs，Btrfs 称 为 是 下 一 代 Linux 文 件 系 统 ， 它 在 扩展 
性 、 数 据 一 致 性 、 多 设备 管理 和 针对 SSD 的 优化 等 方面 都 优 于 ext4。 


高 级 Linux 音 频 体 系 结构 (Advanced Linux Sound Architecture, ALSA) 取代 了 缺陷 很 多 旧 的 
OSS (Open Sound System) 。ALSA 文 持 USB 音 频 和 MIDI 设 备 ， 并 文 持 全 双 工 重 放 等 功能 。 


7. 忌 线 、 设 备 和 驱动 模型 


在 Linux 2.6 以 后 的 内 核 中 ， 忌 线 、 设 备 、 驱 动 三 者 之 间 因 为 一 定 的 联系 性 而 实现 对 设备 的 控制 。 忆 线 
是 三 痢 联系 起 来 的 基础 ， 通 过 一 种 忌 线 类 型 ， 将 设备 和 驱动 联系 起 来 。 忆 线 类 型 中 的 match() 函数 用 来 
匹配 设备 和 张 动 ， 当 匹配 操作 完成 之后 吏 会 执行 驱动 程序 中 的 prope《〈) P. 


8. 电 源 官 理 


支持 高 级 配置 和 电源 接口 (Advanced Configuration and Power Interface, ACPI) ， 用 于 调整 CPU 在 不 同 
的 负载 下 工作 于 不 同 的 时 钟 频 率 以 降低 功 耗 。 目 前 ，Linux 内 核 的 电源 管理 (PM) 相对 比较 完善 了 ， 包 括 
CPUFreq、CPUIdle、CPU 热 插 拔 、 设 备 运行 时 (runtime) PM、Linux 系 统 挂 起 到 内 存 和 挂 起 到 硬盘 等 全 套 
的 支持 ， 在 ARM 上 的 支持 也 较 完 备 。 


9. 联 网 和 IPSec 


Linux 2.6 内 核 中 加 入 了 对 IPSec 的 文 持 ， 删 除了 原来 内 核 内 置 的 HTTP 服务 右 khttpd， 加 入 了 对 新 的 
NFSv4 《网 络 文件 系统 ) 客户 机 /服务 万 的 文 择 ， 并 改进 了 对 IPv6 的 文 持 。 


10.H P ZB] EE 


Linux 2.64 38 55. f WRIA BE, AMA ILES ELA. SEE ATA BD og SCRE CM SR BE 
BS AS IR] ESSE PAPE BUE) 。 


在 设备 驱动 程序 方面 ，Linux 2.64858] T Linux 2.4 也 有 较 大 的 改动 ， 这 主要 表现 在 内 核 API 中 增加 了 不 
少 新 功能 《〈 例 如 内 存 池 ) 、sys 和 文件 系统 、 内 核 模 块 从 .o 杰 为 .ko、 张 动 模块 编译 方式 、 模 块 使 用 计数 、 模 
块 加 载 和 他 载 函数 的 定义 等 方面 。 


11.Linux 3.0 后 ARM 架 构 的 变更 


Linus Torvalds 在 2011 年 3 月 17 日 的 ARM Linux 邮 件 列 表 中 宣称 “this whole ARM thing is a f*cking pain in 
the ass”， 这 引发 了 ARM Linux 社 区 的 地 震 ， 随 后 ARM 社 区 进行 了 一 系列 重大 修正 。 社 区 必须 改变 这 种 局 
面 ， 于 是 PowerPC 等 其 他 体系 结构 下 已 经 使 用 的 FDT (Flattened Device Tree) 进入 到 了 ARM 社 区 的 视野 。 


此 外 ，ARM Linux 的 代码 在 时 钟 、DMA、pinmux、 计 时 堆 刻 度 等 诸多 方面 都 进行 了 优化 和 调整 ， 也 
删除 f arch/arm/mach-xxx/include/mach3k X: fF H3&, UA ze Linux 3.7 以 后 的 内 核 可 以 文 持 多 平台 ， 即 用 同 
一 份 内 核 镜 像 运 行 于 多 家 “SoC 公司 的 多 个 必 片 ， 实 现 “ 一 个 Linux 可 适用 于 所 有 的 ARM 系 统 ”。 


33 Linux 内 核 的 组 成 


3.3.1 Linux 内 核 源 代 人 码 的 目录 结构 
Linux 内 核 源 代 人 包含 如 下 目录 。 


arch: 包含 和 价 件 体系 结构 相关 的 代码， 每 种 平台 占 一 个 相应 的 目录 ， 如 i1386、arm、arm64、 
powerpc、mips 等 。Linux 内 核 目 前 已 经 文 持 30 种 左右 的 体系 结构 。 在 arch 目 录 下 ， 存 放 的 是 各 个 平台 以 及 
各 个 平台 的 导 片 对 Linux 内 核 进程 调度 、 内 存 管 理 、 中 断 等 的 文 持 ， 以 及 每 个 具体 的 goC 和 电路 板 的 板 级 
X REVS o 


‘block: Kiri IKET IOV E 

‘crypto: 常用 加 密 和 散 列 算法 (如 AES、SHA 等 ) ， 还 有 一 些 压 缩 和 CRC 校 验算 法 。 
‘documentation: 内 核 各 部 分 的 通用 解释 和 注释 。 

‘drivers: 设备 驱动 程序 ， 每 个 个 同 的 驱动 三 用 一 个 子 日 录 ， 如 char、block、net、mtd、i2c 等 。 
fs: 所 支持 的 各 种 文件 系统 ， 如 EXT、FAT、NTFS、JFFS2 等 。 

include: 头 文 件 ， 与 系统 相 关 的 头 文件 放置 在 include/linux 子 目录 下 。 

‘init: 内 核 初始 化 代码 。 著 名 的 start kernel O 就 位 于 init/main.c 文 件 中 。 

ipc: 进程 间 通 信 的 代码 。 


kernel: 内 核 最 核心 的 部 分 ， 包 括 进 程 调度 、 定 时 妖 等 ， 而 和 平台 相关 的 一 部 分 代码 放 在 archy/*kernel 
目录 下 。 


lib: 库 文 件 代 码 。 

mm: 内 存 管理 代码 ， 和 平台 相关 的 一 部 分 代码 放 在 arch/*/mm 目 录 下 。 
net: 网 络 相关 代码 ， 实 现 各 种 常见 的 网 络 协议 。 

‘scripts: 用 于 配置 内 核 的 脚本 文件 。 

‘security: 主要 是 一 个 SELinux 的 模块 。 


‘sound: ALSA、OSS 首 频 设 备 的 驱动 核心 代码 和 和 常 用 设备 驱动 。 


‘usr: 实现 用 于 打包 和 压缩 的 cpio 等 。 


‘include: 内 核 API 级 别 头 文件 。 


内 核 一 般 要 做 a 到 drivers 与 arch 的 软件 染 构 分 离 ， 驱 动 中 不 包含 板 级 信息 ， 让 驱动 跨 平 台 。 同 时 内 核 的 


通用 部 分 (如 kernel、 仿 、ipc、net 等 ) 则 与 具体 的 便 件 〈arch 和 drivers) 和 剥离 。 


3.32 Linux 内 核 的 组 成 部 分 


如 图 3.3 所 示 ，Linux 内 核 主 要 由 进程 调度 (SCHED) 、 内 存 管理 (MM)，、 虚 拟 文件 系统 CVES) 、 
网 络 接口 CNET) 和 进程 间 通 信 CPC) 5 个 子 系 统 组 成 。 


进程 调度 进程 间 通 信 


| Win d 
图 3.3” ”Linux 内 核 的 组 成 部 分 与 天 系 







1. 进 程 调度 


进程 调度 控制 系统 中 的 多 个 进程 对 CPU 的 访问 ， 使 得 多 个 进程 能 在 CPU 中 “微观 串 行 ， 宏 观 并 行 * 地 执 
行 。 进 程 调度 处 于 系统 的 中 心 位 置 ， 内 核 中 其 他 的 子 系统 都 依 顿 它 ， 因 为 每 个 子 系统 都 需要 挂 起 或 恢复 进 


FÉ. 


如 图 3.4 所 示 ，Linux 的 进程 在 几 个 状态 间 进 行 切 换 。 在 设备 驱动 编程 中 ， 妆 请 求 的 资源 不 能 得 到 满足 
时 ， 张 动 一 般 会 调度 其 他 进程 执行 ， 并 使 本 进程 进入 睡眠 状态， 直到 和 它 请 求 的 资源 家 释放 ， 才 会 被 唤醒 而 
进入 就 弹 状态 。 睡 上 肪 分 成 可 中 靳 的 睡 虐 和 不 可 中 断 的 睡 虑 ， 两 者 的 区 别 在 于 可 中 断 的 睡 虐 在 收 到 信和 号 的 时 


INE. 
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图 3.4 Linux 进 程 状态 转换 






完全 处 于 TASK_UNINTERRUPTIBLE 状 态 的 进程 甚至 都 无 法 被 “ 杀 死 ?， 所 以 Linux 2.6.26 之 后 的 内 核 
也 存在 一 种 TASK KILLABLE 的 状态 ， 它 等 于 “TASK WAKEKILLITASK UNINTERRUPTIBLE”, FJ LAM 


应 致 全 信号。 


在 Linux 内 核 中 ， 使 用 task_struct 结 构 体 来 插 述 进程 ， 访 结构 体 中 包含 反 述 该 进 程 内 存 资源 、 文 件 系 统 
资源 、 文 件 资源 、tty 资 源 、 信 号 处 理 等 的 指针 。Linux 的 线程 采用 轻 量 级 进程 模型 来 实现 ， 在 用 户 空间 通 
wWpthread_create ©) API 创 建 线 程 的 时 候 ， 本 质 上 内 核 只 是 创建 了 一 个 新 的 task _struct， 并 将 新 task_struct 的 
所 有 资源 指针 部 指 同 创建 它 的 那个 task_struct 的 资源 指针 。 


绝 大 多 数 进程 (以 及 进程 中 的 多 个 线程 》 是 由 用 户 空间 的 应 用 创建 的 ， 当 它们 存在 底层 资源 和 硬件 访 
用 


问 的 需求 时 ， 会 通过 系统 调用 进入 内 核 空间 。 有 时 候 ， 在 内 核 编程 中 ， 如 下 需要 几 个 并 友 执 行 的 任务 ， 可 
以 局 动 内 核 线 程 ， 这 些 线程 没有 用 尸 空 间 。 局 动 内 核 线 程 的 函数 为 : 


pid t kernel threadtint (*in) (void *J),4 void varg; unsigned tong flags); 


2. 内 人 存 管理 


内 存 管 理 的 主要 作用 是 控制 多 个 进程 安全 地 共享 主 内 存 区 域 。 当 CPU 提供 内 存 管 理 单 元 COMMU) 
时 ，Linux 内 存 管理 对 于 每 个 进程 完成 从 虚拟 内 存 到 物理 内 存 的 转换 。Linux 2.6 引 入 了 对 无 MMU CPU 的 文 


持 。 


如 多 3.5 所 示 ， 一 般 而 言 ，32 位 处 理 豆 的 Linux 的 每 个 进程 于 有 4GB 的 内 存 空 间 ，0~3GB 属 于 用 户 罕 
间 ，3~4GB 属 于 内 核 空 间 ， 内 核 空 间 对 稍 规 内 存 、LILO 设 备 内 存 以 及 高 端 内 存 有 不 同 的 处 理 方式 。 当 然 ， 
内 核 空间 和 用 户 空 间 的 具体 界限 是 可 以 调整 的 ， 在 内 核 配 置 选 项 Kernel Features—Memory split 下 ， 可 以 议 
置 界限 为 2GB 或 者 3GB。 


虚拟 地 址 空间 的 内 核 空间 部 分 (1GB) 


进程 18 的 虚 | | 进程 2# 的 虚 
拟 地 址 空间 || 拟 地 址 空间 
的 用 户 空 间 的 用 户 空 间 
部 分 (3GB ) 部 分 (3GB ) 





图 3.5 ”Linux 进 程 地 址 空间 


如 图 3.6 所 示 ，Linux 内 核 的 内 存 管 理 总 体 比 较 庞 大 ， 包 含 底层 的 Buddy 算 法 ， 它 用 于 管理 每 个 页 的 占 
用 情况 ， 内 核 空 间 的 slab 以 及 用 户 空间 的 C 库 的 二 次 管理 。 另 外 ， 内 核 也 提供 了 页 缓存 的 支持 ， 用 内 存 来 
绥 存 磁盘 ，per-BDI flusher 线 程 用 于 刷 回 脏 的 页 缓存 到 磁盘 。Kswapd (交换 进程 》 则 是 Linux 中 用 于 页 面 回 
收 ( 包 括 fle-backed 的 页 和 匿名 页 〉 的 内 核 线程 ， 它 采用 最 近 最 少 使 用 (LRU) 算法 进行 内 存 回收 。 
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图 3.6 ”Linux 内 存 管 理 
3. 虚 拟 文 件 系统 


如 图 3.7 所 示 ，Linux 虚 拟 文 件 系 统 隐 着 了 各 种 便 件 的 具体 细 广 ， 为 所 有 设备 提供 了 统一 的 接口 。 而 
且 ， 它 独立 于 各 个 具体 的 文件 系统 ， 是 对 各 种 文件 系统 的 一 个 抽象 。 它 为 上 层 的 应 用 程序 提供 了 统一 的 
vfs read O . vfs write O 等 接口 ， 并 调用 具体 撒 层 文件 系统 或 者 设备 驱动 中 实现 的 fle_operations 结 构 体 
的 成 员 函 效 。 


用 户 空间 


应 用 程序 







内 核 空间 虚拟 文件 系统 
图 3.7 Linux AU X 4E ARR 
4. 网 络 接口 


网 络 接口 提供 了 对 各 种 网 络 标准 的 存 取 和 各 种 网 络 便 件 的 文 持 。 如 图 3.8 所 示 ， 在 Linux 中 网 络 接口 可 
分 为 网 络 协议 和 网 络 张 动 程 序 ， 网 络 协议 部 分 负责 实现 每 一 种 可 能 的 网 络 传输 协议 ， 网 络 设备 张 动 程序 负 
责 与 便 件 设备 通信 ， 每 一 种 可 能 的 使 件 设备 都 有 相应 的 设备 张 动 程序 。 


网 络 应 用 程序 用 户 空 间 
内 核 空间 
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网 络 设备 


13.8 Linux 网络 体系 结构 


Linux 内 核 支持 的 协议 栈 种 类 较 多 ， 如 Internet、UNIX、CAN、NEFC、Bluetooth、WiMAX、IDA 等 ， 
上 层 的 应 用 程序 统一 使 用 套 接 字 接 口 。 


EFE RD SCREREREZL IRIS fH, Linux LAEE Ze PiaB fe DU]. TU foe EE. AECEPAMES IHE 
BA). uH. UNIXINB RTS, LEAL A Be PETE. 4 OUR E FEWER. XERÉDRIBS BIZ Ie 
递 。 在 实际 的 Linux 应 用 中 ， 人 们 更 多 地 趋向 于 使 用 UNIX 域 套 接 字 ， 而 不 是 System V IPC 中 的 消息 队列 等 
机 制 。Android 内 核 则 新 增 了 Binder 进 程 间 通 信 方 式 。 


Linux 内 核 $5 个 组 成 部 分 之 加 的 依赖 关系 如 下 。 


进程 调度 与 内 存 管理 之 间 的 关系 : 这 两 个 子 系 统 互相 依赖 。 在 多 程序 环境 下 ， 程 序 要 运行 ， 则 必须 
为 之 创建 进程 ， 和 而 创建 进程 的 第 一 件 事 情 ， 束 古 将 程序 和 数据 装 入 内 丰 。 


ERI a SAA PEIN A: 进程 间 通 信子 系统 要 依赖 内 存 定 理 文 持 共 至 内 存 退 信和 机制， 这 种 机 
制 允 许 两 个 进程 除了 拥有 上 自己 的 私有 空间 之 外 ， 还 可 以 存 取 共同 的 内 存 区 域 。 


虚拟 文件 系统 与 网 络 接 口 之 则 的 关系 : 虚拟 文件 系统 利用 网 络 接口 文 持 网 络 文件 系统 (NFS) ， 也 
利用 内 存 管理 文 持 RAMDISK 设 备 。 


内存 管理 与 虚拟 文件 系统 之 间 的 关系 : 内 存 管理 利用 虚拟 文件 系统 文 持 交换 ， 交 换 进 程 定期 由 调度 
程序 调度 ， 这 也 是 内 存 宫 理 依赖 于 进程 调度 的 原因 。 当 一 个 进程 存 取 的 内 存 映 射 被 换 出 时 ， 内 人 存 宫 理 同 虚 
拟 文 件 系统 及 出 请 求 ， 同 时 ， 挂 起 当前 正在 运行 的 进程 。 


除了 这 些 依 赖 天 系 外 ， 内 核 中 的 所 有 子 系统 还 要 依赖 于 一 些 共 同 的 资源 。 这 些 资 源 包 括 所 有 子 系 统 虱 
用 到 的 API， 如 分 配 和 释放 内 存 空间 的 函数 、 输 出 竖 各 或 蚀 误 消 居 的 孙 数 及 系统 提供 的 调试 接口 等 。 


3.3.3 LinuxA TZ T [H] SAP eal 


现代 CPU 内 部 往往 实现 了 不 同 操作 模式 〈 级 别 ) ， 不 同 模式 有 不 同 功能 ， 高 层 程序 往往 不 能 访问 低级 
功能 ， 而 必须 以 某 种 方式 切换 到 低级 模式 。 


例如 ，ARM 处 理 郝 分 为 7 种 工作 模 陈 。 


HPR Cusr) : 六 多 数 应 用 程序 运行 在 用 户 模 式 下 ， 当 处 理 规 运行 在 用 户 模 陈 下 时 ， 霖 芋 被 体 护 
的 系统 资源 是 不 能 态 问 的 。 


RPR ig) : 用 于 局 速 数据 传输 或 通道 处 理 。 

:外 部 中 断 模 式 〈irq) : 用 于 通用 的 中 断 处 理 。 

管理 模式 (sve) : 操作 系统 使 用 的 保护 模式 。 

:数据 访问 中 止 模式 CabO : 当 数 据 或 指令 预 取 中 止 时 进入 该 模式 ， 可 用 于 虚拟 存储 及 存储 保护 。 
系统 模式 (sys) : 运行 具有 特权 的 操作 系统 任务 。 


ARE SUAS FIERI CundD : 当 林 定义 的 指令 执行 时 进入 二 模 式 ， 可 用 于 文 持 便 件 协 处 理 鼎 的 软件 
fi. 


ARM Linux 的 系统 调用 实现 原理 是 采用 Swi 软 中 断 从 用 户 〈usr) 模式 陷入 管理 模式 (sve) 。 


又 如 ，x86 处 理 需 包 侣 4 个 不 同 的 特权 级 ， 称 为 Ring 0~Ring 3。 在 Ring0 下 ， 可 以 执行 特权 级 指令 ， 对 
任何 IO 设备 都 有 访问 权 等 ， 而 Ring3 则 被 限制 很 多 操作 。 


Linux 系 统 可 充分 利用 CPU 的 这 一 便 件 特性 ， 但 它 只 使 用 了 两 级 。 在 Linux 系 统 中 ， 内 核 可 进行 任何 操 
作 ， 而 应 用 程序 则 被 芙 止 对 人 硬件 的 直接 访问 和 对 内 存 的 未 授权 访问 。 人 例如， 在 使 用 x86 处 理 硕 ， 则 用 户 代 
但 运行 在 特权 级 3， 而 系统 内 核 代 但 则 运行 在 特权 级 0。 


由 核 空 间 和 用 户 空 间 这 两 个 名 词 用 来 区 分 程序 执行 的 两 种 不 同 状态， 它们 便 用 不 同 的 地 址 空间 。 
Linux 只 能 通过 系统 调用 和 使 件 中 断 完成 从 用 户 空 间 到 内 核 空 间 的 控制 转移 。 


3.4 Linux 内 核 的 编 详 及 加 载 
3.4.1 Linux 内 核 的 编译 


Linux 驱 动 开 发 者 需要 牢固 地 掌握 Linux 内 核 的 编译 方法 以 为 艇 入 式 系 统 构建 可 运行 的 Linux 操 作 系 统 
上 映像。 在 编译 内 核 时 ， 需 要 配置 内 核 ， 可 以 使 用 下 面 命令 中 的 一 个 : 





#make config (基于 文本 的 最 为 传统 的 配置 界面 ， 不 推荐 使 用 ) 
#make menuconfig (基于 文本 菜单 的 配置 界面 》 

#make xconfig (要 求 QT 被 安装 ) 

#make gconfig (要 求 GTK+ 被 安装 ) 


在 配置 Linux 内 核 所 使 用 的 make config. make menuconfig、make xconfig 和 make gconfig 这 4 种 方式 中 ， 


最 值得 推荐 的 是 make menuconfig， 它 不 依赖 于 QT 或 GTK+， 且 非常 直观 ， 对 /home/baohua/develop/linux 中 
HJ Linux 4.0-rcl 内核 运行 make ARCH=arm menuconfig 后 的 界面 如 图 3.9 所 示 。 
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图 3.9 Linux 内核 编译 配置 


内 核 配置 包含 的 条 目 相 当 多 ，arch/arnmyconfigs/xxx_ defconfig 文 件 包 全 了 许多 电路 板 的 默认 配置 。 只 需 
Jmake ARCH=arm xxx defconfig 了 驶 可 以 为 xxx 开 发 板 配置 内 核 。 


编译 内 核 和 柑 块 的 方法 是 : 


make ARCH-arm zlmage 
make ARCH=arm modules 


上 上述 命令 中 ， 如 果 ARCH=arm 已 经 作为 环境 变量 导出 ， 则 不 再 需要 在 make 命 令 后 书写 该 选项 。 执 行 完 
述 命 令 后 ， 在 涯 代码 的 根 目 录 下 会 得 到 未 压缩 的 内 核 映 像 vmlinux 和 内 核 符 号 表 文 件 System.map， 在 
archyarmy/boot/ 目 录 下 会 得 到 压缩 的 内 核 映 像 zImage， 在 内 核 各 对 应 目录 内 得 到 选中 的 内 核 模 块 。 


Linux 内 核 的 配置 系统 由 以 下 3 个 部 分 组 成 。 
‘Makefile: 分 布 在 Linux 内 核 源 代 公 中 ， 定 义 Linux 内 核 的 编译 规则 。 


-配置 文件 (Kconfig〉: 给 用 户 提 供 配 置 选择 的 功能 。 


-配置 工具 : 包括 配置 命令 解释 器 〈 对 配置 脚本 中 使 用 的 配置 命令 进行 解释 ) 和 配置 用 户 界 面 〈 提 供 
字符 界面 和 图 形 界 面 ) 。 这 些 配置 工具 使 用 的 都 是 脚本 语言 ， 如 用 TeVITKE、Perl 等 。 


使 用 make config. make menuconfig 等 命令 后 ， 会 生成 一 个 .config 配 置 文件 ， 记 录 哪 些 部 分 被 编 详 入 内 
核 、 哪 些 部 分 和 伏 编 详 为 内 核 模块 。 


运行 make menuconfig 等 时 ， 配 置 工具 痛 先 分 析 与 体系 结构 对 应 的 /arch/xxx/Kconfig 文 件 (xxx 即 为 传 入 
的 ARCH 参 数 ) ，/arch/xxx/Kconfig 文 件 中 除 本 身 包含 一 些 与 体系 结构 相关 的 配置 项 和 配置 某 单 以 外 ， 还 通 
过 source 语 句 引 入 了 一 系列 Kconfig 文 件 ， 而 这 些 Kconfig 又 可 能 再 次 通过 source 引 入 下 一 层 的 Kconfig， 配 置 
工具 依据 Kconfig 包 含 的 业 单 和 条 目 即 可 描绘 出 一 个 如 图 3.9 所 示 的 分 层 结 构 。 


3.4.2  KconfigAll Makefile 


在 Linux 内 核 中 增加 程序 需要 完成 以 下 3 项 工作 。 
:将 编写 的 源 代 码 复制 到 Linux 内 核 源 代码 的 相应 目录 中 。 
在 目录 的 Kconfig 文 件 中 增加 关于 新 源 代 码 对 应 项 目的 编译 配置 选项 。 
在 目录 的 Makefile 文 件 中 增加 对 新 源 代 码 的 编 详 条 目 。 
1. 实 例 引 导 : TTY PRINTK 字 符 设 备 


在 讲解 Kconfig 和 Makefile 的 语法 之 前 ， 我 们 先 利用 两 个 简单 的 实例 引导 读者 对 其 建 并 对 具 初 步 的 认 


首先 ， 在 drivers/char 目 录 中 包含 了 TTY PRINTK 设 备 驱 动 的 源 代码 drivers/char/ttyprintk.c。 而 在 该 目录 
的 Kconfig 文 件 中 包含 关于 TTY_PRINTK 的 配置 项 : 


config TTY PRINTK 

tristate "TTY driver to output user messages via printk" 
depends on EXPERT && TTY 
default n 

=== ei pee 

If you say Y here, the support for writing user messages (i.e. 
console messages) via printk is available. 

The feature is useful to inline user messages with kernel 
messages. 

In order to use this feature, you should output user messages 
to dev/ttyprintk or redirect console to this TTY. 

If unsure, say N. 


上 述 Kconfig 文 件 的 这 段 脚本 意味 着 只 有 在 EXPERT 和 TTY 被 配置 的 情况 下 ， 才 会 出 现 TTY PRINTK 配 
置 项 ， 这 个 配置 项 为 三 态 《〈 可 编 详 入 闵 核 ， 可 不 编 详 ， 也 可 编 详 为 内 核 模 块 ， 选 项 分 别 
ANY”. NAM”) ， 腕 单 上 显示 的 字符 串 为 “TTY driver to output user messages via printk”, “help” Ja 181 HJ 
内 容 为 帮助 信息 。 图 3.10 显 示 了 了 TTY PRINTKSé #20) K helpfE3e fj make menuconfig 时 的 情况 。 


除了 布尔 《bool) 配置 项 外 ， 还 存在 一 种 布尔 配置 选项 ， 它 意味 看 要 么 纺 详 入 有 内核， 要么 不 编 详 ， 选 
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CONFIG TTY PRINTK: 


If you say Y here, the support for writing user messages (i.e. 
console messages) via printk is available. 


The feature is useful to inli user messages with kernel 
mes: A 

In order to use thts feature, yo should output user messages 
to /dev/ttyprintk or redirect sole to this TTY. 


If unsure, say N. 


Symbo l: ee oe [=n] 
us 

onpt: Tv drt ver to output user messages via printk 
te 


> De vice Drive 

-> ree devices 
Defined at d r/Kconfig:51 
Depends on: EXPERT [ey] && TTY [=y] 





3.10 ”Kconfig 采 单项 与 help 信 息 
在 目录 的 Makefile 中 关于 TTY _PRINTK 的 编译 项 为 : 


obj-$(CONfiG TTY PRINTK) += ttyprlWEk.o 


述 脚本 意味 看 如 果 TIY PRINTKHBEG 2 ize Dn pce PEAY BM”, Blobj-$ CCONFIG TTY PRINTK) 
等同 于 obj-y 或 obj-m， 则 编 详 ttyprintk.c， 选 “Y*" 时 会 直接 将 生成 的 目标 代码 连接 到 内 核 ， 选 “^M”* 时 则 会 生成 
模块 ttyprintk.ko; 如 果 TTY_PRINTK 配 置 选项 被 选择 为 “-N”， 即 obj-$ CCONFIG TTY PRINTKO 等 同 于 


obj-n， 则 不 编 详 ttyprintk.c。 


一 般 而 言 ， 驱 动 开 发 者 会 在 内 核 源 代码 的 drivers 目 录 内 的 相应 子 目 录 中 增加 新 设备 驱动 的 源 代码 或 者 
在 arch/arm/mach-xxx 下 狐 增 加 板 级 支持 的 代码 ， 同 时 增加 或 修改 Kconfig 配 置 脚本 和 Makefile 脚 本， 具体 执 
行 完 全 仿照 上 述 过 程 即 可 。 


2.Makefile 


这 里 主要 对 内 核 源 代码 各 级 子 目 录 中 的 kbuild CARA IPE A St) Makefile 进 行 简 日 介绍 ， 这 部 分 是 
内 核 模 块 或 设备 驱动 开发 者 最 和 津 接 触 到 的 。 


Makefile 的 语法 包括 如 下 几 个 方面 。 

(1) 目标 定义 

目标 定义 就 是 用 来 定义 哪些 内 容 要 作为 模块 编译 ， 哪 些 要 编译 并 链接 进 内 核 。 
例如 : 


obj-y += foo.o 


表示 要 由 foo.c 或 者 foo.s 文 件 编译 得 到 foo.o 并 链接 进 内 核 〈 无 条 件 编译 ， 所 以 不 需要 Kconfig 配 置 选 
W) ， 而 obj-m 则 表示 该 文件 要 作为 模块 编译 。obj-n 形 式 的 目标 不 会 饭 编 详 。 


更 币 见 的 做 法 是 根据 make menuconfig 后 生成 的 config 文 件 的 CONFIG 和 变量 来 决定 文件 的 编译 方式 ， 
如 : 


obj-$(CONfiG ISDN) += isdn.o 
obj- (CONTIG ISDN PPP BSDCOMP) += isdn bsdcomp<0 


除了 有 具有 obj- 形 式 的 目标 以 外 ， 还 有 lib-ylibrary 库 、hostprogs-y 主 机 程序 等 目标 ， 但 是 这 两 类 基本 都 应 
FA TERRE A A RAIS FP 


(20 多 文件 模块 的 定义 。 


最 简单 的 Makefile 仅 需 一 行 代 但 殉 够 了 了。 如 入 一 个 蛋黄 由 多 个 文件 组 成 ， 会 稍微 复杂 一 些 ， 这 时 候 应 
采用 模块 名 加 -y 或 -objs 后 级 的 形式 来 定义 模块 的 组 成 文件 ， 如 下 : 


# 
# Makefile for the linux ext2-filesystem routines. 
# 
obj-$(CONfiG EXT2 FS) += ext2.0 
ext2-v += balloc.o. dir.o file.o fsync.o ialloc.o inode.o «X 
ioctl.o namei.o superio symlink.o 
ext2-$ (CONTIG EXT2 FS XATTR) T= XQUCDE.O Xattr USer.o XQULE. LIUSbDed.o 
ext2-$(CONfiG EXT2 FS POSIX ACL) += acl.o 
ext2-$ (CONTIG EXT2 FS SECURITY) t= Racer SScurity.o 
ext2-$(CONfiG EXT2 FS XIP) += xip.o 


模块 的 名 字 为 ext2， 由 balloc.o、diro、file.o 等 多 个 目标 文件 最 终 链 接生 成 ext2.o 直 至 ext2.ko 文 件 ， 并 且 
是 否 包 括 xattr.o、acl.o 等 则 取决 于 内 核 配 置 文件 的 配置 情况 ， 例 如 ， 如 果 CONFIG EXT2 FS POSIX ACL 
伏 选 择 ， 则 编译 acl.c 得 到 acl.o 并 最 终 链 接 进 ext2 。 


(3) 目录 层次 的 欠 代 
如 下 例 : 
obj-S(CONfiG EXT2 FS) += ext2/ 
"4CONFIG EXT2 FS 的 值 为 y 或 m 时 ，kbuild 将 会 把 ext2 目录 列 入 向 下 迭代 的 目标 中 。 
3.Kconfig 
内 核 配 置 脚本 文件 的 语法 也 比较 简单 ， 主 要 包括 如 下 几 个 方面 。 
(1) 配置 选项 


大 多 数 内 核 配置 选项 都 对 应 Kconfig 中 的 一 个 配置 选项 (config) : 


config MODVERSIONS 
bool "Module versioning support" 
help 
Usually, you have to use modules compiled with your kernel. 
Saying Y here makes it ... 


“config” 关 键 字 定 义 新 的 配置 选项 ， 之 后 的 几 行 代码 定义 了 该 配 置 选 项 的 属性 。 配 普选 项 的 属性 包括 
关 型 、 数 据 了 范围、 和 输入 皖 示 、 依 顿 关 系 、 选 撞 关 系 及 帮助 信息 、 球 认 值 等 。 


每 个 配置 选项 都 必须 指定 类 型 ， 类 型 包括 bool、tristate、string、hex 和 int， 其 中 tristate 和 string 是 两 种 
其 本 类 型 ， 其 他 类 型 都 基于 这 两 种 基本 类 型 。 类 型 定义 后 可 以 皮 跟 输入 提示 ， 下 和 耐 两 段 脚 本 是 等 价 的 : 


bool “Networking support” 


和 


pool 
prompt "Networking support" 


-输入 提示 的 一 般 格式 为 : 
prompt «prompt» [if «expr»] 
其 中 ， 可 选 的 i 用 来 表示 该 握 示 的 依赖 天 系 。 
SAHE HITE IA: 


default <expr> [if <expr>] 
GHAR A AS BC OT ME, BO ELE TH E EAE o 
依赖 天 系 的 格式 为 : 


depends on (或 者 requires) <expr> 


如 果 定 义 了 多 重 依 赖 关 系 ， 它 们 之 间 用 “&&” 间 隅 。 依 赖 关系 也 可 以 应 用 到 该 采 单 中 所 有 的 其 他 选项 
(同样 接受 i 二 达 式 ) 和 内， 下面 两 段 脚 本 是 等 价 的 : 


bool "foo" if BAR 
default y if BAR 


和 


depends on BAR 
DOOIL "ToO" 
default y 


选择 关系 也 称 为 及 问 依 赖 天 系 ) 的 格式 为 : 

select «symbol» [if <expr>] 
A 如 末 选 择 了 B， 则 在 A 被 选中 的 情况 下 ，B 目 动 被 选中 。 
BRE E AS ZI: 

range «symbol» «symbol» [if <expr>] 


‘Keonfig Ff Wexpr (41K x0) 定义 为 : 


<expr> ::= <symbol> 
<symbol> '=' <symbol> 
«symbol» '!z' «symbol» 
ra <expr> IL 
'I' <expr> 
<expr> '&&' <expr> 
<expr> '||' <expr> 


itz Ul, exprze symbol. P"^^symbolfHSe. P§~Ssymbol S EJ expri IME, dE. 5E mue 
成 。 而 symbol 分 为 两 类 ， 一 类 是 由 沫 单 入 口 配 置 选项 定义 的 非常 数 symbol， 另 一 类 是 作为 expr 组 成 部 分 的 
常数 symbol。 比 如 ，SHDMA R8A73A4 是 一 个 布尔 配置 选项 ， 表 达 式 “ARCH R8A73A4&&SH DMAE! 
=n” 有 暗示 只 有 当 ARCH R8A73A4 被 选中 且 SH DMAE 没 有 被 选中 的 时 候 ， 才 可 能 出 现 这 个 
SHDMA R8A73A4. 


config SHDMA R8A73A4 
def bool y 
depends on ARCH R8A73A4 && SH DMAE !- n 


为 int 和 hex 关 型 的 选项 设置 可 以 接受 的 输入 值 范围 ， 用 户 只 能 输入 大 于 等 于 第 一 个 symbol， 且 小 于 等 
于 第 二 个 symbol 的 值 。 


-帮助 信息 的 格式 为 : 


help Gy=—=helps+==) 
开始 


结束 


帮助 信息 完全 靠 文本 缩 进 识别 结束 。“--help--- ”和 '“help” 在 作用 上 没有 区 别 ， 设 计 “---help--- 的 初衷 在 
于 将 文件 中 的 配置 逻辑 与 给 开 友 人 员 的 提示 分 开 。 


(2) SEHR. ER 


配置 选项 在 来 里 树 结构 中 的 位 置 可 由 两 种 方法 决定 。 第 一 种 方式 为 : 


menu "Network device support" 
depends on NET 
config NETDEVICES 


endmenu 


所 有 处 于 “menu” 和 “endmenu” 之 则 的 配置 选项 都 会 成 为 “Network device support’ MTK, MA, Pra 
子玉 时 (config〉 选 项 部 会 继承 父 采 单 (menu) 的 依赖 天 系 ， 比 如 ， “Network device support X} NET” HY 1K 
赖 会 被 加 到 配置 选项 NETDEVICES 的 依赖 列表 中 。 


注意 : menu 后 面 跟 的 "Network device support” JULY [X ELDE, WAX VASA, BAAR 
3 种 不 同 的 状态 。 这 是 它 和 config 的 区 列 。 


为 一 种 方式 古 退 过 分 析 依 赖 关 系 生 成 及 蛙 结 构 。 如 末末 蛙 项 在 一 定 程 度 上 依赖 于 前 面 的 选项 ， 它 就 能 
成 为 设 选 项 的 于 采 蛙 。 如 来 父 选 项 为 “m9”， 子 选项 个 可见 ; WRAK, FAHS. Aan: 


config MODULES 
bool "Enable loadable module support" 
config MODVERSIONS 
bool "Set version information on all module symbols" 
depends on MODULES 
comment "module support disabled" 
depends on !MODULES 


MODVERSIONS 和 直接 依 赖 MODULES， 只 有 MODULES 不 为 “mn” 时， 该 选项 才 可 见 。 


除 此 之 外 ，Kconfig 中 还 可 能 使 用 “choices...endchoice”、“comment”、“if..endif* 这 样 的 语法 结构 。 其 
中 “choices...endchoice” 的 结构 为 : 


choice 

<choice options> 
«chorce block> 
endchoice" 


它 定义 一 个 选择 群 ， 其 接受 的 选项 (choice options) 可 以 是 前 面 描述 的 任何 属性 ， 例 如 ，LDD6410 的 
VGA H4 HE n] VA 1024x768 2K 4 800x600, Edrivers/video/samsung/Kconfig# 3i. «€ X. f il P choice: 


choice 
depends on EB 55€ VGA 
prompt "Select VGA Resolution for S3C Framebuffer" 
default FB S3C VGA 1024 768 
contig. EB SoC VGA 1024 “Tos 
bool "1024*768860Hz" 
=-=- ne = 
TBA 
config FB 33C VGA 640 480 
bool "640*480@60Hz" 
ce-hnelpe-- 
TBA 
endchoice 


上 述 例子 中 ，prompt 配 合 choice 起 到 提示 作用 。 


用 Kconfig 配 置 脚本 和 Makefile 脚 本 编写 的 更 详细 信息 ， 可 以 分 列 参 见 内 核 文档 Documentation 目 录 内 的 


kbuild-T- H 3€ F HKconfig-language.txt#ll Makefiles.txt X. E © 
4. 应 用 实例 : 在 内 核 中 新 增 驱 动 代 人 码 目 录 和 和 子 上 日 录 


下 面 来 看 一 个 综合 实例 ， 假 设 我 们 要 在 内 核 源 代码 drivers 目 录 下 为 ARM 体 系 结构 靳 增 如 下 用 于 test 
driver 的 树 形 目录 : 


[ee 
| 
[== Test Prog 

pes “Cesk, OUO 


在 内 核 中 增加 目录 和 子 目 了 永 时 ， 我 们 需 为 相应 的 新 增 目 孙 创建 Makefile 和 Kconfig 文 件 ， 而 新 增 目 隶 的 
父 目 录 中 的 Kconffg 和 Makefile 也 需 修 改 ， 以 便 新 增 的 Keconffig 和 Makefile 能 被 引用 。 


在 新 增 的 test 目 录 下 ， 应 设 包 含 如 下 Kconfig 文 件 : 


it 
# TEST driver configuration 
# 
menu "TEST Driver " 
comment " TEST Driver" 
contig CONIC TEST 
bool "TEST Support " 
contig CONILG LIEST USER 
tristate "TEST user-space interface" 
depends on CONfiG TEST 
endmenu 


H T test drivers] FA Rite HARE. HA m BH 268] £e — The TEST Driver。 然 后 ， 显 示 “TEST 
support", SFH P RIE; Be PRAH ze eee [f TEST Driver, WRF S CCONFIG_TEST=y) , 
则 进一步 受 示 子 功能 : HS BRLHSCPUZJéxdRS 由 于 用 户 接 口 功能 可 以 被 编译 成 内 核 模 块 ， 所 以 这 里 的 
询问 语句 使 用 了 tristate。 


为 了 使 这 个 Kconfig 能 起 作用 ， 修 改 arch/arm/Kconfig 文 件 ， 增 加 : 


source "drivers/test/Kconfig" 


脚本 中 的 source 意 味 看 引用 狐 的 Kconfig 文 件 。 
在 新 增 的 test 目 录 下 ， 应 该 包含 如 下 Makefile 文 件 : 


# drivers/test/Makefile 

it 

# Makefile for the TEST. 

it 

obg-o(CONIIG TEST) += Téest.0 test queuse.o Test clre6nt.o 
obj-$(CONfiG TEST USER) += test ioctl.o 
objyeo(CcONPIOG PROC ES) += test proceo 
obj-$(CONfiG TEST CPU) += cpu/ 


该 脚本 根据 配置 变量 的 取 值 ， 构 建 obj-* 列 表 。 由 于 test 目 录 中 包含 一 个 子 日 录 cpu， 因 此 当 
CONFIG_TEST_CPU=y 时 ， 逢 要 将 cpu 目 录 加 入 列表 中 。 


test H xF cpu f H ath EL a P Makefile: 


# drivers/test/test/Makefile 

# 

# Makefile for the TEST CPU 

# 

obg-9 (CONEICC TEST CPU) += Cpu: 


为 了 使 得 编译 命令 作用 到 能 够 整个 test 目 录 ，test 目 录 的 父 目 录 中 Makefile 也 需 新 增 如 下 脚本 : 
obj-$(CONfiG TEST) += test/ 


在 drivers/Makefile 中 加 入 obj-$ (CONFIG TEST) +=test， 使 得 用 户 在 进行 内 核 编 详 时 能 够 进入 test 目 
SK 


增加 了 Kconfig 和 Makefile 之 后 的 新 test 树 形 目录 为 : 


pner Cpu 

|. == Cota 

| -- Makefile 
|-- test.c 
| Gest clDembc 
pse Test TOC 
[== Test. Proce 
l= Lost e a e 
|-- Makefile 
a= UJNCOINETG 


3.4.3 Linux 内 核 的 引导 


引导 Linux 系 统 的 过 程 包括 很 多 阶段 ， 这 里 将 以 引导 ARM Linux 为 例 来 进行 讲解 〈 见 图 3.11〉。 一 般 的 
SoC 内 和 骸 入 了 bootrom， 上 电 时 bootrom 运 行 。 对 于 CPU0 而 言 ，bootrom 会 去 引导 bootloader， 而 其 他 CPU 则 
判断 目 己 是 不 是 CPU0， 进 入 WEFI 的 状态 等 竺 CPU0 来 唤醒 它 。CPU0 引 导 bootloader，bootloader 引 Linux A 
核 ， 在 内 核 启 动 阶 段 ，CPU0 会 发 中 断 唤 醒 CPU1， 之 后 CPU0 和 CPU1 都 投入 运行 。CPU0 导 致 用 户 空间 的 
init 程 序 补 调用，init 程 序 再 派生 其 他 进程 ， 铂 生出 来 的 进程 再 铂 生 其 他 进程 。CPU0 和 CPU1 共 担 这 些 负 
dX, XETI PRIJE 


CPUO CPU 


bootrom bootrom 
bootloader 












init 


图 3.11 ARM 上 的 Linux 引 导 流 程 


bootrom% SoC) 家 根据 目 身 情况 编写 的 ， 目 前 的 SoC 一 般 都 具有 从 SD、eMMC、NAND、USB 等 
介质 启动 的 能 力 ， 这 证 明 这 些 bootrom 内 部 的 代 人 具备 证 SD、NAND 等 能 力 。 


黄 入 式 Linux 领 域 最 著名 有 的 bootloader 是 U-Boot， 其 代码 仓库 位 于 http://git.denx.de/u-boot.git/。 早 前 ， 
bootloader 和 需要 将 局 动 信息 以 ATAG 的 形式 封 锋 ， 并 且 把 ATAG 的 地 址 填 元 在 2 寄存 右 中 ， 机 型 号 填 元 在 rl1 窜 
Pas FP, EULA X *4Documentation/arm/booting. 7EARM Linux x ftii (Device Tree) Ja, bootloader 
则 需要 把 dtb 的 地 址 放 入 I2 寄 存 器 中 。 当 然 ，ARM Linux 也 支持 直接 把 dtb 和 zImage 绑 定 在 一 起 的 模式 〈 内 
核 ARM APPENDED DTB 选 项 “Use appended device tree blob to zImage”) , iXfEr2 $9 4f RA EL m ZERO 
dtb 地 址 了 。 


类 似 zImage 的 内 核 镜 像 实际 上 是 由 没有 压缩 的 解压 算法 和 家 压缩 的 内 核 组 成 ， 所 以 在 bootloader 中 入 
ZImage 以 后 ， 它 目 身 的 解压 缩 逻辑 惑 把 内 核 的 贷 像 解压 缩 出 来 了 了。 天 于 内 核 司 动 ， 与 我 们 关系 比较 大 的 部 
分 是 每 个 平台 的 设备 回调 函数 和 设备 属性 信息 ， 它 们 通常 包装 在 DT MACHINE START 和 
MACHINE END 之 间 ， 包 含 reserve () . map io () 、init machine () 、init late © 、smp 等 回调 函数 或 
者 属性 。 这 些 回调 函数 会 在 内 核 司 动 过 程 中 被 调用 。 后 续 音 节 会 进一步 介绍 。 


FAP 22 IR] Mint = HAB busybox init、SysVinit、systemd 和 等 ， 它 们 的 职 贡 类 似 ， 把 整个 系统 局 动 ， 
取 后 形成 一 个 进程 树 ， 比 如 Ubuntu 上 运行 的 pstree: 


init——NetworkManager——dhclient 
| L2*[ {NetworkManager} ] 
LVBoxSVC-,-VirtualBox—-29* [ {VirtualBox} ] 
| L11*[{VBoxSVC} ] 
I-VBoxXPCOMIPCD 
l-accounts-daemon-—(accounts-daemon] 
l-acpid 
l-apache2-——5* [apache2] 
l-at-spi-bus-laun-—Z2*[íat-spi-bus-laun]] 
atd 
-avahi-daemon—-avahi-daemon 
I-bluetoothd 
I-cgrulesengd 
I-colord-—2*[ícolord]] 
I-console-kit-dae-——64*[(console-kit-daej]] 
I-cpu£reqd-———(cpufreqd) 
I-cron 
I-cupsd 
I-2* [dbus-daemon] 
I-dbus-launch 
I-dconf-service-—2*[ídconf-service]] 
I-dHdnsmasq 


3.5 Linux FICHIER A, 


3.5.1  LinuxZhfi XU 


Linux 有 独特 的 编 合 风格 ， 在 内 核 源 代码 下 存在 一 个 文件 Documentation/CodingStyle， 进 行 了 比较 评 细 
LA) FH IAS o 


Linuxte HIMA A Tt Al Windows FE FF Wan 4 J Tos RA ER] 09) AA a 5 12H TR KI IP IA 


在 Windows 程 序 中 ， 习 惯 以 如 下 方式 命名 宏 、 变 量 和 函数 : 











#define PI 3.1415926 /* MASTIR */ 
int minValue, maxValue;  /* 变量 : 第 一 个 单词 全 小 写 ， 其 后 单词 的 第 一 个 字母 大 写 */ 
void SendData (void); /* RR: 所 有 单词 第 一 个 字母 都 大 写 */ 
这 种 命名 方式 在 程序 员 中 非常 局 行 ， 章 思 表 达 清 晰 且 避 免 了 铭 牙 利 法 的 及 和 肿 ， 单 词 之 间 通 过 首 字 母 大 


写 来 区 分 。 通 过 第 1 个 单词 的 首 字母 是 否 大 写 可 以 区 分 名 称 属 于 变量 还 是 属于 函数 ， 而 看 到 整 串 的 大 写字 
母 可 以 断定 为 宏 。 实 际 上 ，Windows 的 命名 习惯 并 非 仅 限于 Windows 编 程 ， 许 多 领域 的 程序 开发 都 遵照 此 
习惯 。 


但 是 Linux 个 以 这 种 习惯 命名 ， 对 于 上 面 的 一 段 程序 ， 在 Linux 中 它 会 补 命 名 为 : 


#define PI 3.1415926 
int min value, max value; 
void Send Oatetvoe); 


在 上 述 命名 方式 中 ， 下 划 线 大 行 其 道 ， 不 按照 Windows 所 采用 的 用 首 字母 大 写 来 区 分 单词 的 方式 。 
Linux 的 命名 习惯 与 Windows 命 名 习惯 各 有 于 秋 ， 但 是 既然 本 书 和 本 书 的 谈 者 立足 于 编写 Linux 程 序 ， 代 人 三 
风格 理应 与 Linux 开 发 社区 保持 一 致 。 


Linux 的 代码 缩 进 使 用 “TAB?”。 
Linux 中 代码 括号 “人 和 ”的 使 用 原则 如 下 。 
1) 对 于 结构 体 、if/for/while/switch 语 句 ,，“f” 不 男 起 一 行 ， 例 如 : 


SULUCL Var data 4 
int len; 
char data[0]; 
); 
if (a == b) { 
C; 
ar 


a 


OF X LOT ae) 1 
Cr 
a; 


AD) - 
ll oi oll 


2) 如 有 末 计 、for 循 环 后 只 有 1 行 ， 不 要 加 “人 和 分 >， 例如 : 


| - 
NHAU: 


3) iffllelse7l H 的 情况 下 ， else 语 句 不 男 起 一 行 ， 例如 : 


LT (x == y) d 
} else if (x > y) { 
} else { 


} 


4) AF PRB, “SFE IT, BP UM: 


int add(int a, int b) 
{ 
return a+ b; 


} 


在 switch/case 语 名 方面 ，Linux 建 议 switch 和 case 对 齐 ， 例 如 : 


Switch (suffix) { 
case 'G': 
case 'g': 
mem <<= 30; 
break; 
case 'M': 
case 'm': 
mem ««- 20; 
break; 
case 'K': 
case 'k': 
mem <<= 107 
/* tell through wy 
default: 
break; 


} 


内 核 下 的 Documentation/CodingStyle 接 述 了 Linux 内 核对 编码 风格 的 要 求 ， 内 核 下 的 scripts/checkpatch.pl 
提供 了 1 个 检查 代码 风格 的 脚本 。 如 果 使 用 scripts/checkpatch.pl 检 查 包 含 如 下 代码 块 的 源 程序 : 


束 会 产生 “WARNING: braces{}are not necessary for single statement blocks” 的 警告 。 


另外 ， 请 注意 代码 中 空格 的 应 用 ， 壁 如 “for g—-—oo; ee xc 410, St) er" 


EAA EA em ”者 是 空格 。 


在 工程 阶段 ， 一 般 可 以 在 SCM 软 件 的 服务 硕 病 使 能 pre-commit hook， 目 动 检 查 工 程 师 提交 的 代码 是 否 
符合 Linux 的 编码 风格 ， 如 果 不 符合 ， 则 自动 拦截 。git 的 pre-commit hook 可 以 运行 在 本 地 代码 仓库 中 ， 如 
Ben Dooks 完 成 的 一 个 版 本 : 


#!/bin/sh 


# 
# pre-commit hook to run check-patch on the output and stop any commits 
# that do not pass. Note, only for git-commit, and not for any of the 

# other scenarios 

# 


# Copyright 2010 Ben Dooks, <ben-linux@fluff.org> 

if git rev-parse --verify HEAD 2>/dev/null >/dev/null 

then 
against=HEAD 

else 
# Initial commit: diff against an empty tree object 
against-4b825dcóo42cb6eb9a060e54bf8d69288fbee4904 

fi 

git diff --cached Sagainst -- | ./scripts/checkpatch.pl --no-signoff - 


3.5.2 GNUCSANSIC 


Linux E n] Hi JC VESRAEGNU C 编 详 茶 ， 它 建立 在 目 由 软件 基金 会 的 编程 许可 证 的 基础 上 ， 因 此 可 
VAR HAA GNU C 对 标准 C 进 行 一 系列 扩展 ， 以 增强 标准 C 的 功能 。 


LEAKE Nee ke AA 
GNU C 人 允许 使 用 零 长 度数 组 ， 在 定义 变 长 对 象 的 头 结构 时 ， 这 个 特性 非常 有 用 。 例 如 : 


struct var data i 
int len; 
echar detarol]s 
E 


char data[0 AAA A a Fee Pivar _ data 结构 体 实例 的 data[lindex] 成 员 可 以 访问 len 之 后 的 第 index 个 地 
址 ， 它 并 没有 为 data[] 数 组 分 配 内 存 ， 因 此 sizeof (struct var data) =sizeof Gint) 。 


假设 struct var_data 的 数据 域 束 保存 在 struct var_data 案 接 大 的 内 存 区 域 中 ， 则 通过 如 下 代码 可 以 退 历 这 
些 数 据 : 


STLUCE var data Ss; 


for (1 = 0; 1 < s.len; i+t) 
Printi" 023"; s.dacal a)? 


GNU C 中 也 可 以 使 用 1 个 变量 定义 数组 ， 例 如 如 下 代码 中 定义 的 “double x[n]": 


int Main (int argc, char *argvll) 
{ 
LOC. hy Wi = gargo) 
double x[nl; 
for (i = 0; i < n; i++) 
x[i] = 1; 
return OF 


2 caseYu, 


GNU Cx #¥case x...y 这 样 的 语法 ， 区 间 [x， 刁 中 的 数 都 会 满足 这 个 case 的 条 件 ， 请 看 下 面 的 代码 : 


Switch (ch) { 


Case "Oy '9't GC == "D's 
break; 

Case Uueth ua UE Cc =a Ta” = 103 
break; 

case 'A'... 'F': c -= 'A' - 10; 
break; 


} 


代码 中 的 case'0'...'9' 等 价 于 标准 C 中 的 : 


“OY case TI": case '2'* case Tota case '4': 


case '5': case '6': case '7': case '8': case !'9': 
3.18 8] EIA I 


GNU C 把 包含 在 括号 中 的 复合 语句 看 成 是 一 个 表达 式 ， 称 为 语句 表达 式 ， 它 可 以 出 现在 任何 允许 表 
达 式 的 地 方 。 我 们 可 以 在 语句 表达 式 中 使 用 原本 只 能 在 复合 语句 中 使 用 的 循环 、 局 部 变量 等 ， 例 如 : 
#define min t(type,x,y) \ 
(itype .. X —CUOOTJLYDe S = (y); x< y X: y: ]) 
int La, 1b, minis 
float fa, Lb, mint; 


mini = Man Clint, La LD)? 
Mint = min c(rloat, £a, fb); 


因为 重新 定义 了 xx 和 y 这 两 个 局 部 变量 ， 所 以 用 上 述 方式 定义 的 安 将 不 会 有 副作用 。 在 标准 C 
中 ， 对 应 的 如 下 安 则 会 产生 副作用 : 


#define min(x,y) ((x) « (y) (x) : (y)) 


代码 min 〈++ia，++ib) 会 展开 为 〈 (ia) < (Hb) (Ha): (+b) ) ， 传 入 宏 的 “参数 ”增加 
PAIK 


4 typeof $E F- 
typeof (x) 语句 可 以 获得 x 的 区 型 ， 因 此 ， 可 以 信 助 typeof 重 新 定义 min 这 个 宏 : 


#define min(x,y) ( 
conet LyYpeort (x) _- 
CONSE. Typeor(y) 
(void) (& x == & 
EAM (Xo: Yr 


OL uu ou 


我 们 不 需要 像 min t (type, x, y2 那个 宏 那样 把 type 传 入 ， 因 为 通过 typeof (x) ~ typeof Cy) 可 以 获 
得 type。 代 码 行 (void) (& x==& y) 的 作用 是 检查 x 和 y 的 类 型 是 否 一 致 。 


5. 可 变 参 数 宏 
标准 C 就 文 持 可 变 参 数 函 数 ， 意 味 着 函数 的 参数 是 不 固定 的 ， 例 如 printf〈) 函数 的 原型 为 : 
人 
而 在 GNU C 中 ， 宏 也 可 以 接受 可 变数 目的 参数 ， 例 如 : 


#define pr debug(fmt,arg...) \ 
printk (fmt, ##arg) 


iX H arg ZR AARHUJZSS WUARSTRETERM, MESRAUKRS WZ lA) ME St argh, ER 


扩展 时 符 换 arg， 如 下 列 代码 : 
pr debug ("%s:%d", filename, line) 
SAT EN: 
printk("$s:%d", filename, line) 


使 用 ':% 入 ' 是 为 了 处 理 arg 不 代表 任何 参数 的 情况 ， 这 时 候 ， 前 面 的 逗号 就 变 得 多 余 了 。 使 用 '%#" 之 后 ， 
GNU C 预 处 理 需 会 丢弃 前 面 的 逗 亏 ， 这 样 ， 下 列 代 人 码 : 


pr debug ("success!\n") 


会 被 正确 地 扩展 为 : 


printk("success!\n") 


而 不 是 : 
printk("success!\n",) 


这 正 征 我 们 希望 看 到 的 。 


6. 标 号 元 系 


标准 C 要 求 数 组 或 结构 体 的 初始 化 值 必 须 以 固定 的 顺序 出 现 ， 在 GNU C 中 ， 通 过 指定 索引 或 结构 体 成 
员 名 ， 人 允许 初始 化 值 以 任意 顺序 出 现 。 


指定 数组 索引 的 方法 是 在 初始 化 值 前 添加 “[INDEX]=”， 当 然 也 可 以 用 “[FIRST..LAST]=-” 的 形式 指定 
一 个 范围 。 例 如 ， 下 面 的 代 担 定义 了 一 个 数组 ， 并 把 其 中 的 所 有 元 系 赋 值 为 0: 


unsigned char data[MAX] = { [0 ... MAX-1] = 0 Jj; 


下 面 的 代码 信 助 结构 体 成 员 名 初始 化 结构 体 : 


SeLruce Tile ODOrQtloHS e€Xt2 tile OPa ionn = 1 
llseek: generic file Lleeek, 
road: Generic ile read, 
Write: Generic iile write, 
21OCLIS OFC TO0CEL, 
mmap: generic file mmap, 
Opens generic Tile Open, 
release: esL- telease rite, 
LSynos Ozta Sync tile, 


[Hzé, Linux 2.61E 4g ZS DUIS TUES SETA RC HT PEC HS] 7 3 


struct Tile operations ext2 file operations = | 


.llseek = Generic tale llisSek, 
.read Generic tile read, 
.write Generic. Tile WITE; 


jaro read 
.aio write 


Generic tile aro Tead; 
generic file aio write, 


:LOE ext2 16ctl, 

.mmap generic file mmap, 
.OPen Generic Te -cpen, 
pgeelease = Erla ‘release Tile, 

 Ioync = ex A sync fie; 

.readv = generi file ready, 
.writev = generic tile WIIUSV; 
.Sendfile = generrcc tile Sendrile; 


7.498 ER ALY 


GNU C 预 定义 了 两 个 标识 符 保 存 当 前 函数 的 名 字 ，_FUNCTION ”保存 函数 在 源码 中 的 名 字 ， 
__PRETTY_FUNCTION _ 你 存 带 语言 特色 的 名 字 。 在 C 函 数 中 ， 这 两 个 名 字 是 相同 的 。 


void example () 


{ 
NT 


} 


代码 中 的 ”FUNCTION 意味 着 字符 串 “example”。C99 已 经 支持 func 宏 ， 因 此 建议 在 Linux 编 程 中 
不 再 使 用 FUNCTION ， 而 转 而 使 用 func _ 


void example (void) 
{ 


Printi ("Ins 29 CUnCtlon:oes9", . unc. 7 


} 


8. 特 殊 属 性 声明 


GNU C 人 允许 声明 也 数 、 变 量 和 类 型 的 特殊 属性 ， 以 便 手动 优化 代码 和 定制 代码 检 查 的 方法 。 要 指定 
一 个 声明 的 属性 ， 只 需要 在 声明 后 添加 _attribute © (ATTRIBUTE) ) 。 其 中 ATTRIBUTE 为 属性 说 
明 ， 如 果 和 存在 多 个 属性 ， 则 以 逗号 分 隔 。GNU C 文 持 noreturn、format、section、aligned、packed 等 十 多 个 
属性 。 


noreturn 属 性 作用 于 函数 ， 表 示 该 函数 从 不 返回 。 这 会 让 编译 器 优化 代码 ， 并 消除 不 必要 的 警告 信 
Al. Pun: 


# define ATTRIB NORET attribute ((noreturn)) .... 


asmlinkage NORET TYPE void do exit(long error code) ATTRIB NORET; 


format} E EHT AZO ZR VAR BÉ LS printf. scanfetstrftime XSW, TRE format/g f n] EL iE 2s 
PEAS TRS EBAY, POU: 


asmLlhnkage- int PLiIntk(Const Char * Ib; wis) .-@Gbribure ((format (princi, dy 2))) + 


上 述 代码 中 的 第 1 个 参数 是 格式 早 ， 从 第 2 个 参数 开始 部 会 根据 printf() ee ACA SUB AUS BS 
数 。 


unused 属 性 作用 于 函数 和 人 变量， 表示 该 函数 或 变量 可 能 个 会 用 到 ， 这 个 属性 可 以 避 倪 编译 帮 产生 管 告 


aligned 属 性 用 于 变量 、 结 构 体 或 联合 体 ， 指 定 变 量 、 结 构 体 或 联合 体 的 对 齐 方式 ， 以 字 节 为 单位 ， 例 
Till s 


Struct example struct 4 
Char a 
imc B; 
Long Cs 
j attribute (laligned(4))); 


LETS VAG TAS TAE E Dh MY FF o 


packed 属 性 作用 于 变量 和 类 型 ， 用 于 变量 或 结构 体 成 员 时 表示 使 用 最 小 可 能 的 对 齐 ， 用 于 枚 举 、 结 构 
体 或 联合 体 关 型 时 表示 运 类 型 使 用 最 小 的 内 存 。 例 如 : 


SCEUCT. example struct 4 
char a; 
int D; 
Long c X ectripure  (ipacked)Js 





— S VE sso ZG TA NM CAE EROR GEHT eA Y. SE Dt us [p] £58 RA o oa E RH SUP ES P 
如 ， 对 于 一 个 32 位 的 整 型 变量 ， 和 在 以 4 字 节 方式 存放 《〈 即 低 两 位 地 址 为 00) » WICPUTE — 4 4 Z8] SAA ait 
可 以 族 取 32 位 ; 合 则 ，CPU 需 要 两 个 总 线 周期 才能 读 取 32 位 。 


9. 内 建 图 数 


GNU C 提 供 了 大 量 内 建 函 数 ， 其 中 大 部 分 是 标准 C 库 函数 的 GNU C 编 译 絮 内 建 版 本 ， 例 如 
memcpy O 守 ， 它 们 与 对 应 的 标准 C 库 函数 功能 相同 。 


不 属于 库 函 数 的 其 他 内 建 函数 的 命名 通常 以 _builtin 开 始 ， 如 下 所 示 。 


FIERA builtin return address (LEVEL) 返回 当前 函数 或 其 调用 者 的 返回 地 址 ， 参 数 LEVEL 指 定 
调用 栈 的 级 数 ， 如 0 表示 当前 函数 的 返回 地 址 ，1 表 示 当 前 函数 的 调用 者 的 返回 地 址 。 


ÆRA builtin constant p (EXP) 用 于 判断 一 个 全 是 售 为 编 详 时 第 数 ， 如 果 参 数 EXP 的 信和 是 第 
25, KORE, RIO. 


例如 ， 下 面 的 代码 可 检测 第 1 个 参数 是 否 为 编译 时 常数 以 确定 采用 参数 版 本 还 是 非 参 数 版 本 : 





#define test bit(nr,addr) \ 
( "purlctrnm constant Pnr) N 


constant test bit((nr),(addr)) : \ 
vardsable best DLANE rtd yy 


‘ASE PK 2X builtin expect (EXP, C) HIT Aan VES TED] LWE JoRIBMBIESESURXA EXP 
HUE, CHE DIN zE Sm VERS] irs Bo 


Linux 内 核 编程 时 党 用 的 likely ©) 和 unlikely ©) 后 层 调 用 的 likely notrace () ~ unlikely notrace () i 
是 基于 builtin expect (EXP, CO 实现 的 。 


#define likely notrace (x) bie bean expec  TIxe 1) 
#define unlikely notrace (x) __ builtin expect (!! (x); 0) 


NM, 


右 代 码 中 出 现 分 文 ， 则 即 可 能 中 断 流 水 线 ， 我 们 可 以 通过 likely C) Munlikely O 暗示 分 文 容易 成 立 


BENE A MIL, PG: 


if (likely(!IN DEV ROUTE LOCALNET (in dev) ) ) 
LE ti pve. ns loopbackisaqgdrf)) 
goto e inval; 


在 使 用 gcc 编 译 C 程 序 的 时 候 ， 如 果 使 用 “ansi-pedantic" 编 译 选 项 ， 则 会 告诉 编译 需 不 使 用 GNU 扩 展 语 
法 。 例 如 对 于 如 下 C 程 序 test.c: 


SLEUGL var data. 
int len; 
char data) Ul: 
} ° 


P var data A; 
和 卫 接 编 详 可 以 通过 : 
gcc -c test.c 
如 采 使 用 “ansi-pedantic" 编 详 选 项 ， 编 详 会 报警 : 


qego “aneu. pedantic =C Teste 
test:C:3: warning: -I50-C forbids zero-saze: array ‘data! 


3.5.3 doí!while (0) 语句 


在 Linux 内 核 中 ， 经 常会 看 到 do{}while (0) 这 样 的 语句 ， 许 多 人 开始 都 会 疑惑 ， 认 为 dof}while (0) 
毫 无 意义 ， 因 为 它 只 会 执行 一 次 ， 加 不 加 dofjwhile (0) 效果 是 完全 一 样 的 ， 其 实 dof}iwhile (0) 的 用 法 
主要 用 于 宏 定 义 中 。 

这 里 用 一 个 简 持 的 宏 来 渤 示 : 


#define SAFE FREE(p) do{ free(p); p = NULL;} while(0) 


假设 这 里 去 掉 do...while (0) ， 即 定义 SAFE_DELETE 为 : 


#define SAFE FREE(p) free(p); p = NULL; 


那么 以 下 代码 : 


if (NUL. $= p) 
SAFE DELETE (p) 
else 
tied ™ GO Somethang ^/ 


BEIT A: 


if (NULL $e p) 
free (p); p = 
else 
sead" do Something */ 


NULL; 


展开 的 代码 中 存在 两 个 问题 : 
1) 因为 if 分 文 后 有 两 个 语句 ， 导 致 else 分 文 没 有 对 应 的 论 编译 失败 。 
2) 假设 没有 else 分 文 ， 则 SAFE FREE 中 的 第 二 个 语句 无 论 认 则 试 是 含 通过 ， 都 会 执行 。 
的 确 ， 将 SAFE FREE 的 定义 加 上 他 就 可 以 解决 上 述 问 题 了 ， 即 : 
#define SAFE FREE(p) ( free(p); p = NULL;) 
这 样 ， 代 码 : 


if (NULL 1= p) 
SAFE DELETE (p) 
else 
. 4^ do something *7 


BEIT 23: 


ae (CN Ud Line p) 
{ free(p); p = NULL; } 
else 
wo odo somethang *J 


(Bre, TECTEHP'B. fESET BIBUNT Se PREJXETRIMEJ2] TA, 35A. Ud PV: 


E NUT. = dp) 
SAFE DELETE (p) ; 
else 
. /* do something */ 


TAB HET: 


ix NUI qe) 
[Tre (py P= NULLS “hy 
else 
« of ado somethrng *7 


这 样 ，else 分 文 束 义 没 有 对 应 的 f 了 ， 编 译 将 无 法 通过 。 假 设 用 了 do{}while (0) 语句 ， 情 况 融 不 一 样 
了 ， 同 样 的 代码 会 被 展开 为 : 
if (NULL T= p) 
do{ free(p); p = NULL;} while (0); 


else 
c we do some hing wy 


而 不 会 再 出 现 编 译 问题 。dof}Ywhile (0) 的 使 用 完全 是 为 了 保证 宏 定 义 的 使 用 者 能 无 编译 错误 地 使 用 宏 ， 
它 不 对 其 使 用 者 做 任何 假设 。 


3.5.4 ”goto 语 人 句 


用 不 用 goto 一 下 是 一 个 者 名 的 争议 话题 ，Linux 内 核 源 代 但 中 对 goto 的 应 用 非 钟 广 泥 ， 但 是 一 般 只 限于 
销 误 处 理 中 ， 其 结构 如 : 


(eLetter qi 290) 
GOLO err 

ii (regio Er DO) 150) 
goto errl; 

it(registet 00 790) 
goto err2; 

Lh (register dqU 290) 


goto err3; 


err.: 


ünregister CO 
err: 

unregister Di 
errl: 

unregister al); 
err: 


return ret; 


XP goto FERE AKEE fin) FETT aC, RS PRUE TEP RANE. OURS, SIE 
第 的 往 册 、 资 源 申请 顺序 相反 。 


3.6 工具 链 


在 Linux 的 编程 中 ， 通 第 使 用 GNU 工 具 链 编 译 Bootloader、 内 核 和 应 用 程序 。GNU 组 织 维护 了 GCC、 
GDB、glibce、Binutils 等 ， 分 别 见于 


https://gcc.gnu.org/, https://www.gnu.org/software/gdb/, https://www.gnu.org/software/libc/. https://www.gnu.ors 


£g W740 MAE Re 2329096 ,— AY WI 8 (UA crosstool-ngix FF AYE AOR. crosstool-ngth KH 
Ge A 
"zd. ieíffct-ng menuconfig， 会 出 现 如 图 3.12 的 配置 染 单 。 在 里 面 我 们 可 以 选择 目标 机 处 理 大 型 号 ， 文 
持 有 的 内 核 版 本 号 等 。 


n >. Highlighted letters are 
odularizes features. P 
9 [ 


*] built-in [ ] excluded 





Target options ---> 
Toolchain options ---> 
$ 





Load an Alternate Configuration File 
Save an Alternate Configuration File 


3.12. crosstool-ngH) Ac Ei sie HR. 


SVR, qn UER RRES 77 98 EXER. JEUDI. TOS H bRABEESRHJACOC LAUNE, "ll 
fEhttp://www.mentor.com/embedded-software/sourcery-tools/sourcery-codebench/editions/lite-edition/. F. n] EJ 3 
4b XTARM,. MIPS. ;SiHexagon. Altera Nios I、Intel、AMD64 等 处 理 需 的 工具 链 ， 

在 http:/www.linaro.org/downloads/ 可 以 下 载 针 对 ARM 的 工具 链 。 


目前 ， 在 ARM Linux 的 开发 中 ， 人 们 趋向 于 使 用 Linaro Chttp://www.linaro.org/) 工具 链 团队 维护 的 
ARM 工 具 链 ， 它 以 每 月 一 次 的 形式 发 布 新 的 版 本 ， 编 译 好 的 可 执行 文件 可 从 网 
RE 4%. LinaroŒœ ARM Linux 领 域 中 最 阁 名 最 其 技术 成 束 的 开源 组 织 ， 其 会 

包括 ARM、Broadcom、Samsung、TI、Qualcomm 等 ， 国 内 的 海 思 、 中 兴 、 全 志和 中 国 台 湾 的 MediaTek 
也 是 它 的 会 员 


一 个 典型 的 ARM Linux 工 具 链 包含 arm-linux-gnueabihf-gcc (后 续 工 具 省 略 前 级 ) ~ strips gees 
objdump、1d、gprof、nm、freadelf、addr2line 等 。 用 strip 可 以 删除 可 执行 文件 中 的 符号 表 和 调试 信息 等 来 实 
现 缩减 程序 体积 的 目的 。gprof 在 编译 过 程 中 在 函数 入 口 处 插入 计数 器 以 收集 每 个 函数 的 被 调用 情况 和 被 
调用 次 数 ， 检 查 程 序 计数 器 并 在 分 析 时 找 出 与 程序 计数 器 对 应 的 函数 来 统计 函数 占用 的 时 间 。objdump 是 
有 反 汇 编 工具 。nm 则 用 于 显示 关于 对 象 文件 、 可 执行 文件 以 及 对 象 文 件 库 里 的 符号 信息 。 其 中 ， 前 级 中 
的 “hf 显示 该 工具 链 是 完全 的 便 序 点 ， 由 于 目前 主流 的 ARM 心 户 都 目 市 VEFP 或 者 NEON 等 序 点 处 理 单 元 
(FPU) ， 所 以 对 硬 浮 点 的 需求 就 更 加 强烈 。Linux 的 浮 点 处 理 可 以 采用 完全 软 浮 点 ， 也 可 以 采用 与 软 浮 


RARE, (Axe HFPUE H softtip, UK EEEF A. AVSHYABI (Application Binary Interface, v Hif 


序 二 进 制 接口 ) 通过 -mfloat-abi= 参 数 指定 ，3 种 情况 下 的 参数 分 别 是 -mfloat-abi=soft/softfp/hard。 


在 以 前 ， 主 流 的 工具 链 


下 面 一 上段 程 序 : 


float mul(float a, 


{ 


return a * be 


} 


void main(void) 


{ 


float b) 


prance (Vi 5 BS 


} 


采用 “与 软 浮 点 兼容 ， 但 是 使 用 FPU 硬 件 的 softfp”。softfp 使 用 了 硬件 的 FPU， 
但 是 函数 的 参数 仍然 使 用 整 型 寄存 器 来 传递 ， 完 全 便 译 点 则 直接 使 用 FPU 的 寄存 器 传递 参数 。 


人 


对 其 使 用 arm-linux-snueabihfgcc 编 译 并 反 汇 编 的 结果 是 : 


000 08394 «mul»: 


e. 
Á 


8394: b480 push. . trv} 
0390€ D09:3 Sub: Spy Fiz 
8398). af00 add r7, sp, #0 
839a: ed87 Oa01vstrsO, [r7, #4] (nul11)839e: edc7 Oa00vstrsl, [r7] 
83a2: ed97 7a01 vladar s14, [r7, #4] (null) 
83a6: edd7 7a00 Wor > Slap LE] 
83aa: ee6/ 7a27 VNUs Tt SZ loy. gSl4 $915 
83ae: eebO 0a67 VWIROV4 T3272 SU, 8915 
Soe ru POC ee £7; xd, L2 
83b6: 46bd IRON. Spp EY 
oobos beso pop. XE 
83ba: 4770 bac Lr 
0000 83be «main»: 
oobos. D580 push. Efe dx 
83be: af00 add r7, sp, #0 
S3C0% ed9f- Qa09vldrsO,- poe, #36) (nulLL); 9389.«maiimt0x20»599047 eddt 0a09vüdrsl,.. (oe, #36) (null); 
SoCo, Lift fred 58394 «mul» 
683cc: eer) /a40 vmov.f32 s15, s0 
83d0: eeb7 7ae7 Vet tot Ss Wy. Glo 
83d4: £248 4044 movw r0, #33860 ; 0x8444 
godes d2G0- 0000 movt rO, #0 
Sod EOD ZDI VOV “25. Pop Q 
peos TEL- Ef pix 0269 <1 nate 20> 
83e4: bd80 pop: SX. DOJ 
83e6: bf00 nop 
而 使 用 没有 “hf 前 绥 的 arm-linux-gnueabi-gcc 编 详 并 反 拒 编 的 结果 则 为 
00D -0539c. smul: 
025005 D480 push Pr} 
0356*.J5053 Sub' Spr 2 
8390: ALJ add r7, sp, #0 
8392: 6078 Str - FOr ri, 44163945 6039 str rl, [r7, #0]8396: ed97 7a01 Alle na 
839e: ee6/ 7a27 vmübsft22 Sle . Say. 945 
83a2: eel/ 3a90 vmov 2S, 2615 
03a6: 4618 mow XU 
De JD JI- DG add.w r7, r7, #12 
83ac: 46bd ION" Soy El 
83ae: bc80 pop: Ev 
83b0: 4770 bx Ly 
b3 p2 pT 00 nop 
000 083b4 <main>: 
6354s D590 pusmn- Ew. JE 
83b6: af00 add. wd. Spy FO 
53B8s 4306 lo". Sec ipe 332] ; (83dc <main+Ox28>) 83ba: 4909 Ldr ode Jp F20] 
S36 Jfr dre bl. -8380 «mül- 
3900: ee. Vad vmov . sls 0 
83c4: eeb7 7ae7 VeEvterotet SZ Wis. 59 
63662. £246. 40383 movwrO0, #33848; 0x8438 
Ce *200- 0000 movtrO, #0 


83ec «main-c*O0x3 


(83e0 <maint 


S300 -Gob53 2517 WIM 2 SO Oe cu 

03d4: f7ff ef84 Dio 19260 «€ LI LEOXA07 
S503: deo pop EY. Ded 

oodat DEJO nop 


关注 其 中 加 粗 的 行 ， 可 以 看 出 前 面 的 汇编 使 用 80 和 s1 传 递 参数 ， 后 者 则 仍然 使 用 ARM 的 r0 和 rl。 测 试 
显示 一 个 含有 浮 点 运算 的 程序 车 使 用 hard ABI 会 比 softfp ABI 快 5%~40%， 如 果 浮 点 负载 重 ， 结 果 可 能 会 快 
200% 以 上 。 


37 ”实验 军 建 设 


在 公司 或 学 校 的 实验 室 中 ，PC 的 性 能 一 般 来 说 不 会 太 珊 ， 用 PC 来 编译 Linux 内 核 和 模块 的 速度 总 会 受 
上 腿 。 相 反 ， 服 务 右 的 资源 相对 比较 充分 ，CPU 以 及 磁盘 性 能 部 较 噩 ， 因 此 在 服务 如 上 进行 内 核 、 驱 动 及 应 
用 程序 的 编 详 开 友 将 更 加 快捷 ， 而 且 使 用 服务 右 更 有 利于 统一 定理 实验 室内 的 所 有 开 友 者 。 图 3.13 所 示 为 


一 种 第 见 的 小 型 Linux 实 验 室 环境 。 


在 Linux 服 务 赦 上 局 动 了 Samba、NES 和 sshd 进 程 ， 各 工程 师 在 目 己 的 Linux 或 Windows 各 户 机 上 通过 
SSH 用 目 己 的 用 户 名 和 密码 登录 服务 硕 ， 便 可 以 使 用 服务 硕 上 的 GCC、GDB 等 软件 。 


在 Windows 下 ， 稼 用 的 SSH 客 户 病 软件 是 SSH Secure Shell， 而 配套 的 SSH Secure File Transfer 则 可 用 在 
客户 关 和 服务 豆 闫 复制 文件 。 在 Linux 下 可 以 通过 在 终 凯 下 运行 ssh 命 令 连 接 服 务 硕 ， 并 通过 scp 命 令 在 服务 
ax FU AS HZ I8] E itil] SOE o 










Linux 


Pat oe tat k 
GDB, GCC, | n em L 
Samba. sshd SEN mount NFS 
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目标 板 、 服 务 融 和 客 刻 问 全 部 通过 交换 机 连接 ， 同 时 客户 是 连接 目标 板 的 串口 作为 控制 人 台 。 在 调试 
Linux 应 用 程序 时 ， 为 了 方便 在 目标 板 和 开 友 环境 间 共 圣 文件 ， 有 时 候 可 以 使 用 NFS 文 件 系 统 。 编 号 完成 
的 应 用 程序 或 内 核 模 块 可 和 卫 接 存放 在 服务 帮 的 NFS 服 务 目 录 内 ， 而 该 目录 可 侯 目 标 板 上 的 Linux 系 统 疙 载 
到 本 号 的 一 个 目录 和 内。 


3.8 串口 工具 


在 艇 入 式 Linux 的 调试 过 程 中 ,目标 机 往往 会 提供 综 主机 一 个 串口 控制 台 ， 驱 动工 程 师 在 80% 以 上 的 
情况 下 部 是 通过 串口 与 目标 机 通信 。 因 此 ， 好 用 的 串口 工具 将 大 大 提 融 工程 师 的 生产 效 深 。 


在 Windows 坏 境 下 ， 其 附件 内 目 市 了 超级 终 疾 ， 超 级 终 闹 包括 了 对 VT100、ANSI 等 终 闹 仿真 功能 以 及 
对 xmodem、ymodem、zmodem 等 协议 的 文 持 。 


在 调试 过 程 中 ， 经 名 需要 保存 串口 打印 信息 的 历史 记录 ， 这 时 候 可 以 使 用 "传送 ? 深 单 下 的 "捕获 文 
字 ” 功 能 来 实现 。 


SecureCRT 是 比 超级 终端 更 强大 日 更 方便 的 工具 ， 它 将 SSH 的 安全 登录 、 数 据 传送 性 能 和 Windows 终 
闹 仿 真 提供 的 可 靠 性 、 可 用 性 和 可 配置 性 结合 在 一 起 。 鉴 于 SecureCRT 具 备 比 超级 终 闹 更 哩 大 有 晶 好 用 的 功 
能 ， 建 议 直 接 用 SecureCRT 蔡 代 超 级 终端 


在 开发 过 程 中 ， 为 执行 目 动 化 的 串口 发 送 操作 ， 可 以 使 用 SecureCRT 的 VBScript 脚 本 功能 ， 让 其 运行 
一 段 脚本 ， 目 动 捕获 接收 到 的 串口 信息 并 回 串 口上 发 送 指定 的 数据 或 文件 。 下 面 的 脚本 设置 了 SecureCRT 
等 待 至 接收 到 “CCC"” 字 符 串 后 通过 xmodem 协 议 发 送 file.bin 文 件 ， 接 着 ， 当 接收 到 “y/n” 时 ， 选择 “y”。 


#Slanguage = "VBScript" 

foLlnterface = "1.0" 

Sub main 
Dir = "d:\baohua\" 
' turn on synchronous mode so we don't miss any data 
crt.Screen.Synchronous = True 


'wait "CCC" string then send file 
Ort ocreen. NancRorsotring "CCC 
crt.fileTransfer.SendXmodem Dir & "file.bin" 
'wait "y/n" string then send "y" 
crt.ocreen,.WaitForString "y/n" 
crt.Screen.Send "y" & VbCr 
End Sub 


男 外 ， 在 Windows 坏 境 下 ， 也 可 以 选用 PuTTY 工 具 ， 该 工具 非常 小 巧 ， 而 功能 很 强大 ， 可 文 持 串口 、 
Telnet ASSH, HBE 77 PAL Ahttp://www.chiark. greenend.org.uk/~sgtatham/putty/ - 


Minicomze Linux i FS FA RAF Windows ERAMATE, SARALA S ON, mic 
按 下 “Ctrl+A” 键 ， 紧 接着 按 下 “Z”" 键 激活 菜单 ， 如 图 3.14 所 示 。 
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53.14 Minicom 


除了 Minicom 以 外 ， 在 Linux 系 统 下 ， 也 可 以 直接 使 用 C-Kermit。 运 行 kermit 命 令 即 可 局 动 C-Kermit。 在 
使 用 C-Kermit 连 接 目 标 板 之 前 ， 需 先进 行 串口 设置 ， 如 下 上 所 示 : 


set line /dev/ttyS0 
set speed 115200 

set carrier-watch off 
set handshake none 
set fTlow-cOontrol none 
robust 

set file type bin 

Set Lite name Lrt 

set rec pack 1000 

set send pack 1000 
set window 5 


之 后 ， 使 用 以 下 命令 就 可 以 将 kermit 连 接 到 目标 板 : 


在 kermit 的 使 用 过 程 中 ， 会 涉及 串口 控制 从 和 kermit 功 能 模式 之 间 的 切换 ， 从 串口 控制 全 切换 到 kermit 
的 方法 是 按 下 “Ctri+\* 键 ， 然 后 再 按 下 “C”* 键 。 


假设 我 们 在 串口 控制 台 上 敲 入 命令 ， 使 得 目标 板 进 入 文件 接收 等 待 状态 ， 此 后 可 按 下 “Ctrlt+\* 键 ， 再 
按 “C” 键 ， 切 换 到 kermit， 运 行 “send/file name”* 命 令 传输 文件 。 文 件 传输 结束 后 ， 由 运行 “ce”* 命 令 ， 将 进入 
c pe. 


本 章 主 要 讲解 了 Linux 内 核 和 Linux 内 核 编 程 的 基础 知识 ， 为 读者 在 进行 Linux 驱 动 开 发 打下 软件 基 
fili o 


在 Linux 内 核 方面 ， 主 要 介绍 了 Linux 内 核 的 发 展 史 、 组 成 、 特 点 、 源 代码 结构 、 内 核 编译 方法 及 内 核 
引导 过 程 。 


由 于 Linux 驱 动 编程 本 质 属 于 内 核 编程 ， 因 此 掌握 内 核 编程 的 基础 知识 显得 尤为 重要 。 本 章 在 这 方面 
主要 讲解 了 在 内 核 中 新 增 程序 、 目 录 和 编写 Kconfig 和 Makefile 的 方法 ， 并 分 析 了 Linux 下 C 编 程 习 惯 以 及 
Linux 所 使 用 的 GNU C 针 对 标准 C 的 扩展 语法 。 


第 4 章 “Linux 内 核 模 块 
本 章 导读 


Linux 设 备 驱 动 会 以 内 核 标 块 的 形式 出 现 ， 因 此 ， 竺 会 编写 Linux 内 核 柑 块 编程 是 学 习 Linux 设 备 驱 动 
的 先决 条 件 。 


4.1~4.2 节 讲解 了 Linux 内 核 模 块 的 概念 和 结构 ，4.3~4.8 节 对 Linux 内 核 模块 的 各 个 组 成 部 分 进行 了 展 
现 。4.1~4.2 节 与 4.3~4.8 节 是 整体 与 部 分 的 关系 。 


4.9 节 说 明了 独立 存在 的 Linux 内 核 模块 的 Makefile 文 件 编写 方法 和 模块 的 编译 方法 。 


4.10 贡 讨论 了 使 用 模块 “经 开 ?”GPL 的 问题 。 


4.1 LinuxA fZ Pa Ex TS) 


Linux P3 TAH ERAS SE i EK, FLT ANZA is 0 TBE PEE ma 2e HJ 33 27 EN 
核 中 呢 ? 


一 种 方法 是 把 所 须要 的 功能 部 编 详 到 Linux 内 核 中 。 这 会 村 至 两 个 问题 ， 一 是 生成 的 内 核 会 很 大 ， 
二 古 如 未 我 们 要 在 更 有 的 内 核 中 新 增 或 删除 功能 ， 将 不 得 不 重新 编 详 内 核 。 


有 没有 为 一 种 机 制 可 使 得 编 详 出 的 内 核 本 里 并 个 十 要 包含 所 有 功能 ， 而 在 这 些 功 能 第 要 馈 使 用 的 时 
候 ， 其 对 应 的 代码 航 动 在 地 加 载 到 内 核 中 呢 ? 


Linux 皖 供 了 这 样 的 机 制 ， 这 种 机 制 梓 称 为 模 基 《Module) o KRHA RE HIREA o 
PER AR EE AS AEA AZIM MAIER Y APERIRI Se 
模块 一 旦 被 加 载 ， 它 束 和 内 核 中 的 其 他 部 分 完全 一 样 。 


为 了 使 谈 者 杞 步 建立 对 模块 的 感性 认识 ， 我 们 先 来 看 一 个 最 简单 的 内 核 模块 “Hello World”， 如 代码 清 
单 4.1 所 示 。 


代码 清单 4.1 ”一 个 最 人 简单 的 Linux 内 核 模块 


L~" 

2 * a simple kernel module: hello 

3 * 

4 x Copyright (C) 2014 Barry Song  (baohua(Gkernel.org) 
5 * 

6 * Licensed under GPLv2 or later. 

Tay 


8 

9#include <linux/init.h> 
10#include <linux/module.h> 
11 
l2stuteo ant anit bello 1m1e (void) 
13{ 
14 printk(KERN INFO "Hello World enter\n"); 
lo  xeturm 95 
16] 


Limodule init (nello init)? 

18 

19static void exit hello exit (void) 

20 { 

21 printk(KERN INFO "Hello World exit\n "); 
22] 

Z39module exit(hello exrt); 

24 


25MODULE AUTHOR("Barry Song «21cnbao(gmail.com»"); 
26MODULE LICENSE (TOPO 2 

2/]MODULE DESCRIPTION ("A simple Hello World Module"); 
28MODULE ALIAS ("a simplest module"); 


^h ge fe) FREI A ACER: HUBS VRBE SERI AC. ED ER UR] GPL v2 YT n] J9CBR AI a HH EA — Ee 38 
Na. Br]BBU EUbuntuf/home/baohua/develop/training/kernel/drivers/hello HRK. Zi VE E P7 AE 
hello.ko 目 标 文 件 ， 通 过 “insmod./hello.ko”" 命 令 可 以 加 载 它 ， 通 过 “mmod hello” Ar n] EAR, HH ALERT a 


出 “Hello World enter’, SED 447 E “Hello World exit"; 


内 核 模块 中 用 于 输出 的 函数 是 内 核 空间 的 printk ()》 而 不 是 用 户 空间 的 printf(〉 , printk ©) 的 用 法 和 
printf ©) 基本 相似 ， 但 前 者 可 定义 输出 级 别 。printk() 可 作为 一 种 最 基本 的 内 核 调 斌 手段， 在 Linux 豫 动 
的 调试 章节 中 将 会 详细 讲解 


在 Linux 中 ， 使 用 Ismod 命 令 可 以 获得 系统 中 已 加 载 的 所 有 借 块 以 及 模块 则 的 依赖 天 系 ， 例 如 : 


Module Size Used by 
hello 9 472 Q 
nls 1509094 1 12 052 -L 
nls cp437 13 696 1 
vfat lo 616 1 
1 vfat 


fat a7 S076 


Ismod 命 令 实 际 上 是 读 取 并 分 析 “/proc/modules” 文 件 ， 与 上 述 Ismod 命 令 结果 对 应 的 “/proc/modules” 文 件 
如 下 : 


S cat /proc/modules 

hello 12393 0 - Live 0xe67a2000 (OF) 
nls utf8 12493 1 = Live Oxeo78e000 
isofs 39596 1 = Live 0xe677f000 
vboxsf 42561 2 - Live 0xe6767000 (OP). 


内 核 中 已 加 载 模 块 的 信息 也 存在 于 /sys/module 目 录 下 ， 加 载 hello.ko 后 ， 内 核 中 将 包含 /sys/module/hello 
目录 ， 访 目录 下 义 有 有 一 个 refent 父 件 和 一 个 sections 目 录 ， 在 /sys/module/hello 目 录 下 运行 “tree-a” 可 得 到 如 下 
目录 树 : 

root@barry-VirtualBox:/sys/module/hello# tree -a 


. | coresize|-- holders}+— initsize|-- initstate}— notes| L- .note.gnu.build-id|— refcnt}+— sections| I—— .exit. 
3 directories, 15 files 


modprobe 命 令 比 insmod 命 令 要 强大 ， 它 在 加 载 某 模 块 时 ， 会 同时 加 载 该 借 世 所 依赖 的 其 他 和 模 匡 。 使 用 
modprobe 命 令 加 载 的 模块 大 以 “modprobe-r flename” 的 方式 凶 载 ， 将 同时 季 载 其 依赖 的 模块 。 模 块 之 间 的 
依 惠 天 系 存 放 在 根 文件 系统 的 /lib/modules/<kernel-version>/modules.dep 文 件 中 ， 实 际 上 古 在 整体 编译 内 核 
EA] ENT fl FH depmod_L LAE RBS. “EEN AS SUSE Ay fa HR: 

kernel/lib/cpu-notifier-error-inject.ko: kernel/lib/notifier-error-inject.ko 
kernel/libypm-notifiert-error-inject.ko: kernel/lib/notifler-error-inject.ko 
kernel/lib/lru cache.ko: 

kernel/lib/cordic.ko: 

kernel/lib/rbtree test.ko: 


kernel/lib/interval tree test.ko: 
updates/dkms/vboxvideo.ko: kernel/drivers/gpu/drm/drm.ko 


使 用 modinfo< 模 块 名 > 命令 可 以 获得 模块 的 信息 ， 包 括 模 块 作者 、 模 块 的 说 明 、 模 块 所 文 持 的 参数 以 


AX vermagic: 


+ modinfo hello.ko 


filename: 
alias: 


description: 


license: 
author: 
depends: 
vermagic: 


/home/baohua/develop/training/kernel/drivers/hello/hello.ko 
a simplest module 

A simple Hello World Module 

GPL v2 

Berry Song «2Llonbao8gmarl.com.- 


T.,0.0e-rcol SMP -Mod un Load: 696 


4.2 ”Linux 内 核 模 块 程序 结构 
一 个 Linux 内 核 模块 主要 由 如 下 几 个 部 分 组 成 。 
(1) 模块 加 载 函 数 


当 通 过 insmod 或 modprobe 命 令 加 载 内 核 模 世 时 ， 午 其 的 加 载 琐 数 会 目 动 仆 内 核 执 行 ， 完 成 本 蛋 块 的 相 
天 初始 化 工作 。 


(2) TUAE SER AC 


"qfiirmmodáp 4 EN OR PRR AY, BRERA EN a BSEC ETAT 063 PER EN SS UTR SCIT] 0] 


anb 
CC 


(3) 模块 许可 证 声明 


许可 证 (LICENSE) 声 明 摘 述 内 核 模 撕 的 许可 权限 ， 如 果 不 声 明 LICENSE， 模 块 被 加 载 时 ， 将 收 到 
内 核 被 污染 (Kernel Tainted) 的 警告 。 


在 Linux 内 核 模块 领域 ， 可 接受 的 LICENSE 包 括 “GPL”、“GPL v2” “GPL and additional rights", “Dual 
BSD/GPL”、“Dual MPL/GPL” 和 “Proprietary”〈( 天 于 模块 是 耕 可 以 采用 非 GPL 许 可 权 ， 如 “Proprietary”， 这 
EAR FAYE ERD A PN) 。 


KE SAUL RR. AREER DIE TR GPLIR AE ATA. Linux EZ ee ie A LA s VA, 
MODULE LICENSE (“GPL v2”) 语句 声明 模块 采用 GPL v2. 


(4) RERE Cay at) 
模块 参数 是 模 世 被 加 载 的 时 候 可 以 传递 给 它 的 仁 ， 它 本 号 对 应 和 模 其 内 部 的 全 局 变量 。 
(5) RRS Cay at) 


由 核 醒 块 可 以 导出 的 符号 〈symbol， 对 应 于 函数 或 变量 ) , ar, FER UU AY MEH AS ERB EN 


(60 模块 作者 等 信息 声明 (可 选 ) 


4.3 RRINE PK ZA 


Linux PY IARR IR R BL M UA — init VA P3 B], WAI ERRER EK ITZ ST IS A 4.2 BITS o 


代 但 清单 4.2 ALAA PRR TK PR C 


L Static ne . Init Inicraglizotrion Tunctromivord) 
Z 

3 /* 初始 化 代码 */ 

4 } 

5 


module init(initralization function); 


FECERIS ES AL UA" module init (HAA) ”的 形式 被 指定 。 它 返回 整 型 值 ， 厂 彻 始 化 成 功 ， 应 返 
而 在 初始 化 失败 时 ， 应 该 返回 错误 编码 。 在 Linux 内 核 里 ， 错 误 编 码 是 一 个 接近 于 0 的 负 值 ， 在 
<linux/errno.h> 中 定义 ， 包 仿 -ENODEV、-ENOMEM 之 类 的 符 写 什 。 总 是 返回 相应 的 错误 编码 是 种 非常 好 
的 习惯 ， 因 为 只 有 这 样 ， 用 户 程 序 才 可 以 利用 perror 等 方法 把 它们 转换 成 有 意义 的 错误 信息 字符 串 。 


在 Linux 内 核 中 ， 可 以 使 用 request module (const char*fmt, ...) 函数 加 载 内 核 模块 ， 驱 动 开发 人 员 可 
以 通过 调用 下 列 代 人 码 : 


request. module (moqule name); 
TRG HIT CC AA BR 


fELinux'?, PARA init] KAA Be EEA TK, BAAR ib op, TEER T 
者 会 族 在 .inittext 这 个 区 段 内 。 


#define . 10st -Atribute 4{. -SOectron  —(["cnirttexco")J7 


所 有 的 init 函数 在 区 段 .initcallinit 中 还 保存 了 一 份 图 数 指针 ， 在 初始 化 时 内 核 会 通过 这 些 图 数 指针 调 
用 这 些 ”init 函 数 ， 并 在 初始 化 完成 后 ， 释 放 init 区 上 段 〈 包 括 .init.text、.initcall.init 等 ) WA. 


除了 函数 以 外 ， 数 据 也 可 以 被 定义 为 ”initdata， 对 于 只 是 初始 化 阶段 需要 的 数据 ， 内 核 在 初始 化 完 
后 ， 也 可 以 释放 它们 占用 的 内 存 。 例 如 ， 下 和 面 的 代码 将 hello data 定 义 为 _initdata: 


人 
Scarico LN. TNE hello inzctiovosd) 
{ 
printk(KERN INFO "Hello, world @d\n", hello data); 
return O; 
} 
module init(hello init); 
Statice void . exit Nello exit (vod) 
{ 
printk (KERN INFO "Goodbye, world\n") ; 
} 


module exicihello: exit); 


4.4. BREED ay ph A 


Linux PY fZ TR ERI EA BL M UA — exit VA P3 8], A BE SER BY JE UU TT 4.3 AIT AB o 


代 人 担 清 单 4.3 AYA ER EN LER 


tatroc void exit cleanup Tunction (void) 
/* 释放 代码 */ 


odule exit(cleanup.tunctlon); 


T ER EN ER PR BNE BREN BIS] RT PAT» T IIE, = EA module exit (函数 名 ) ”的 形式 来 
Fa RE o WOR DU. PEREN ER PR By ER 76 653 TK PR A CEP] RE o 


我 们 用 ”exit 来 修饰 模块 翻 载 图 数 ， 可 以 香 诉 内 核 如 果 相 关 的 模块 极 和 直接 编 详 进 内 核 〈 即 built-in) ， 
则 cleanup function ©) 函数 会 被 省 略 ， 直 接 不 链 进 最 后 的 镜像 。 既 然 模 块 被 内 置 了 了 ， 隐 不 可 能 到 载 它 了 了， 
色 载 辆 数 也 束 没 有 存在 的 必要 了 了。 除了 图 数 以 外 ， 只 是 退出 阶段 采用 的 数据 也 可 以 用 ”exitdata 来 形容 。 


45 ”模块 参数 


我 们 可 以 用 “module param 《参数 名 ， 参 数 闫 型， 参数 旋 / 写 权限 ) ”为 模块 定义 一 个 参数 ， 例 如 下 列 代 
AE X. f SEB AI SET EL 
SLC Char *Dook name = "dissecting linux Device Driver”; 
module param(book name, charp, S IRUGO); 


Static inte. book Tum = 40007 
module param (book num, int; S IRUGO); 


FEAR aK A TAREE, FAP DA Eee BL, JE Jnsmode 〈 或 modprobe) 模块 名 参数 名 = 参数 
值 ?”， 如 果 不 传递 ， 参 数 将 使 用 模块 内 定义 的 缺 省 值 。 如 果 模 块 被 内 置 ， 束 无 法 insmod 了 ， 但 是 bootloader 
可 以 通过 在 bootargs 里 设置 “使 氛 名 .参数 名 = 信 ” 的 形式 给 广内 置 的 模块 传递 参数 。 


参数 类 型 可 以 是 byte、short、ushort、int、uint、long、ulong、charp 《字符 指针 ) 、bool 或 invbool (Ai 
PRAT BQ) » ERRA EEN module param 中 声明 的 类 型 与 变量 定义 的 闫 型 进行 比较 ， 判 断 是 售 一 致 。 


除 此 之 外 ， 和 模块 也 可 以 拥有 参数 数组 ， 形 式 为 “module param array( 数 组 名 ， 数 组 类 型 ， 数 组 长 ， 参 
数 谈 /与 权限 ) ”。 


模块 补 加 载 后 ， 在 /sys/module/ 目 录 下 将 出 现 以 此 模块 名 命名 的 目录 。 当 “参数 讯 /号 权限 ”为 0 时 ， 表 未 
此 参数 不 存在 sysfs 文 件 系 统 下 对 应 的 文件 节操 ， 如 果 此 柑 块 存在 “参数 读 / 写 权限 ”不 为 0 的 命令 行 参 数 ， 在 
此 模块 的 目录 下 还 将 出 现 parameters 目 孙 ， 其 中 包 侣 一 系列 以 参数 名 命名 的 文件 节点 ， 这 些 文件 的 权限 值 
怠 是 传 入 module param O 的 “参数 读 / 写 权限 ”， 而 文件 的 内 容 为 参数 的 值 。 


运行 insmod 或 modprobe 命 令 时 ， 应 使 用 带 写 分 隅 输入 的 数组 元 系 。 


现在 我 们 定义 一 个 包含 两 个 参数 的 模 其 《如 代码 清单 4.4， 位 于 本 书 配套 源 代 但 [kerneldrivers/param H 
KP ， 并 观察 模块 加 载 时 被 传递 参数 和 不 传递 参数 时 的 输出 。 


代码 清单 4.4 THB RUA APR 


#include <linux/init.h> 
#include «linux/module.h» 


Static char “book name = "dissecting Linux Device Driver"; 
module param(book name, charp, S IRUGO); 


static int book num - 4000; 
module param(book num, ant, 9 IBRUGO); 


CO —] O0 O1 4E CO N IP 


O 


I9 SOSLIC Int — Init DOOk Init (void) 

11 { 

127 printk(KERN INFO "book name:%s\n", book name); 
1:3 printk(KERN INFO "book num:%d\n", book num); 


14 return Uj 

15 } 

16 module init(book init); 

17 

18 static void exit book exit(void) 


1. 3 


20 printk(KERN INFO "book module exit\n "); 

21 } 

22 module exit(book exit); 

24 MODULE AUTHOR ("Barry Song <baochua@kernel.org>"); 
29. MODULE DLICENSE(UGPB v2") 7 


26 MODULE DESCRIPTION("A simple Module for testing module params"); 
2l MODULE: VERSION ("V1.0") 7 


对 上 述 模块 运行 “insmod book.ko” 命 令 加 载 ， 相 应 输出 都 为 模块 内 的 默认 值 ， 通 过 
看 “/var/log/messages” 日 志文 件 可 以 看 到 内 核 的 输出 : 


# tail -n 2 /var/log/messages 
Jul 2 01:03:10 localhost kernel: <6> book name:dissecting Linux Device Driver 
Jul 2 01:03:10 localhost kernel: book num: 4000 


IH P1247 “insmod book.ko book name='GoodBook'book num=5000 MART, $n h He TSES 
BN 


# tail -n 2 /var/log/messages 
Jul 2 01:06:21 localhost kernel: «6» book name:GoodBook 
Jul 2 01:06:21 localhost kernel: book num:5000 


Jy. fE/sysHo& FP. thin I ELE Sllbook ERIS: 


barry@barry-VirtualBox:/sys/module/book/parameterss tree 
.|— book namet— book num 


并 且 我 们 可 以 通过 “cat book name” 和 “cat book num”* 查 看 它们 的 值 。 


4.6 “导出 符号 
Linux 的 ”%proc/kallsyms” 文 件 对 应 独 内 核 符 亏 表 ， 它 记录 了 符号 以 及 符号 所 在 的 内 存 地 址 。 
EER AY LEHU RSM AES BATA TE SZ 


EXPORT SYMBOL (#54) ; 
EXPORT SYMBOL GPL(#f#S4) ; 


SEE AN Ey AY DAB REA, R i EA BT FH — PBN Ay. EXPORT SYMBOL GPL O 只 适用 于 
包含 GPL 许可 权 的 模块 。 代 码 清单 4.5 给 出 了 一 个 导出 整数 加 、 减 运算 函数 符号 的 内 核 梗 块 的 例子 。 


代 但 清单 4.5 ARERR EN FP Sr UH 


L #include €elinux/init.h» 

2 dinclude <linux/module.h> 

3 

4 Int adda 1nLegaritlHt ay INC D) 

9 4 

6 return a+ b; 

(E 

8 EXPORT SYMBOL GPL(add integar); 
9 
LU AXmE.sup.inteosr(lnb ay TnL D) 
11 { 
La FOLUTI a = D; 
13 3 
14 EXPORT SYMBOL GPL(sub integar); 
15 


LG MODULE: LICENGE(TGPL v2"); 


从 “/proc/kallsyms” 文 件 中 找 出 add integar. sub integar 的 相关 信息 : 


# grep integar /proc/kallsyms 
e679402c r _ksymtab sub integar [export symb] 
e0794050 r ketrtab sub integar [export symbj 
e6794038 r  kcrctab sub integar [export symb] 
e6794024 r  ksymtab add integar [export symb] 
e6794048 r  kstrtab add integar [export symb] 
eo/94054 r X korctabo add xntegar [export symb] 

t add integar [export symb] 

t sub integar [export symb] 


e6793000 
e6793010 


4.7 ”模块 声明 与 插 述 


在 Linux 内 核 模块 中 ， 我 们 可 以 用 MODULE AUTHOR. MODULE DESCRIPTION, 
MODULE VERSION, MODULE DEVICE TABLE. MODULE ALIAS 分 别 声明 模块 的 作者 、 描 述 、 版 
本 、 设 备 表 和 别名 ， 例 如: 


MODULE AUTHOR (author) ; 

MODULE DESCRIPTION (description) ; 
MODULE VERSION (version string); 
MODULE DEVICE TABLE (table info); 
MODULE ALIAS (alternate name); 


对 于 USB、PCI 等 设备 驱动 ， 通 常会 创建 一 个 MODULE DEVICE TABLE， 以 表明 该 驱动 模块 所 支持 
的 设备 ， 如 代码 清单 4.6 所 示 。 


代 但 清单 4.6 ”驱动 所 支持 的 设备 列表 


1 /* table of devices that work with this driver */ 
2 Statre StrucE Usb. Cevice rd SKel table TI = 4 

3 { USB DEVICE (USB SKEL VENDOR ID, 

4 USB SKEL PRODUCT ID) }, 

5 { } /* terminating enttry */ 

o Jj; 

7 
8 


MODULE DEVICE TABLE (usb, Skel Tab te) 7 


此 时 ， 并 不 需要 读者 理解 MODULE DEVICE TABLE 的 作用 ， 后 续 相 关 章 节 会 有 详细 介绍 。 


4.8 ”模块 的 使 用 计数 


Linux 2.4 内 核 中 ， 模 块 自身 通过 MOD INC USE COUNT. MOD DEC USE COUNT 宏 来 管理 自己 被 
使 用 的 计数 。 


Linux 2.6 以 后 的 内 核 提 供 了 模块 计数 官 理 接口 try module get (&module) 和 
module put C&module) ， 从 而 取代 Linux 2.4 内 核 中 的 模块 使 用 计数 官 理 宏 。 标 块 的 使 用 计数 一 般 不 必 由 
模块 自身 管理 ， 而 且 模 块 计数 管理 还 考虑 了 SMP 与 PREEMPT 机 制 的 影响 。 


int try module ES 


BRAH TS RE Tae; IRIN, Zev AW, AEE H ACA BCI EG BOE FE x ae 
载 中 。 


void module put(struct module *module); 
该 函数 用 于 减少 模块 使 用 计数 。 


try module get €) 和 module put © 的 引入 、 使 用 与 Linux 2.6 以 后 的 内 核 下 的 设备 模型 密切 相关 。 
Linux 2.6 以 后 的 内 核 为 不同 类 型 的 设备 定义 了 struct module*owner 域 ， 用 来 指 问 官 理 此 设备 的 模块 。 当 开 
始 使 用 茶 个 设备 时 ， 内 核 使 用 try module get (dev->owner) 去 增加 管理 此 设备 的 owner 策 块 的 使 用 计数 ; 
当 不 再 使 用 此 设备 时 ， 内 核 使 用 module put (dev->owner) 减少 对 管理 此 设备 的 管理 模块 的 使 用 计数 。 这 
样 ， 当 设备 在 使 用 时 ， 管 理 此 设备 的 模块 将 不 能 被 外 载 。 只 有 当 设 备 不 再 被 使 用 时 ， 模 块 才 允 许 被 外 载 。 


在 Linux 2.6 以 后 的 内 核 下 ， 对 于 设备 驱动 而 言 ， 很 少 需 要 亲 目 调用 try module get O 与 
module put O ， 因 为 此 时 开发 人 员 所 写 的 张 动 通 币 为 文 持 菏 有 共 体 议 备 的 管理 模块 ， 对 此 议 备 owner 醒 块 
的 计数 演 理 由 内 核 里 更 确 层 的 代码 (如 忆 线 驱动 或 是 此 类 设备 共用 有 的 核心 模块 ) 来 实现 ， 从 而 简化 了 设备 
KIF R -o 


4.9 BADR Sg 
RATE WA RAS 8&4. LETT 53 — ^1 f8] Makefile: 


KVERS = S(shell uname -r) 
# Kernel modules 
obj-m += hello.o 
# Specify flags for the module compilation. 
#EXTRA CFLAGS--g eL 
buxldi Kernel modules 
kernel modules: 
make -C /lib/modules/S(KVERS)/build M-$(CURDIR) modules 
clean: 
make -C /lib/modules/S(KVERS)/build M=S(CURDIR) clean 


该 Makefile 文 件 应 该 与 源 代码 hello.c 位 于 同一 目录 ， 开 启 其 中 的 EXTRA CFLAGS=-g-00， 可 以 得 到 包 
含 调试 信息 的 hello.ko 模 块 。 运 行 make 命 令 得 到 的 模块 可 直接 在 PC 上 运行 。 


H 


如 果 一 个 模块 包括 多 个 .c 文 件 〈 如 filel.c、file2.c) ， 则 应 该 以 如 下 方式 编写 Makefile: 


obj-m := modulename.o 
modulename-objs := filel.o file2.o 


4.10 ”使 用 模块 “ 绕 开 ”GPL 


Linux 内 核 有 两 种 导出 从 号 的 方法 给 模块 使 用 ， 一 种 方法 是 EXPORT_ SYMBOL O ， 男 外 一 种 是 
EXPORT SYMBOL GPL O) 。 这 一 点 和 模块 A 导出 符号 给 模块 B 用 是 一 致 的 。 


内 核 的 Documentation/DocBook/kernel-hacking.tmpl 明 确 表 明 “the symbols exported by 
EXPORT SYMBOL GPL €) can only be seen by modules with a MODULE LICENSE () that specifies a GPL 
compatible license.” 由 此 可 见 内 核 用 EXPORT SYMBOL GPL O 导出 的 符号 是 不 可 以 被 非 GPL 模 块 引 用 
的 。 


由 于 相当 多 的 内 核 符 号 都 是 以 EXPORT SYMBOL GPL O 导出 的 ， 所 以 历史 上 曾经 有 一 些 公司 把 内 
核 的 EXPORT SYMBOL GPL O 直接 改 为 EXPORT SYMBOL () ， 然 后 将 修改 后 的 内 核 以 GPL 形式 发 
布 。 这 样 修改 内 核 之 后 ， 模 块 不 再 使 用 内 核 的 EXPORT SYMBOL GPL O 符号 ， 因 此 模块 不 再 需要 
GPL。 对 此 Linus 的 回复 是 : “think both them said that anybody who were to change a xyz GPL to the non-GPL 
one in order to use it with a non-GPL module would almost immediately fall under thewillful infringement thing, 


and that lt would make it MUCH easier to get triple damages and/or injunctions, since they clearly knew about 


it”, FALE, MBE N BER ees TAL (willful infringement) ”。 


AIRPRO ze 5 —~“S wrapperA ARE CK ER EUEVAGPL) ， 把 EXPORT SYMBOL GPL O 导出 
WI SARAH LAEXPORT SYMBOL ©) 形式 导出 ， 而 其 他 的 模块 不 直接 调用 内 核 而 是 调用 wrapper 
函数 ， 如 图 4.1 所 示 。 这 种 做 法 也 具有 和 争议 。 


xxx func() 


wrapper funca() 其 他 模块 
} 4FGPL 


wrapper funca() 


funca () wrapper fii Jt 
GPL v2 





} 
EXPORT SYMBOL (wrapper funca) 


funca () 
Linux 内 核 GPL v2 


} 
EXPORT SYMBOL GPL (funca) 





图 4.1 将 EXPORT SYMBOL GPL 重新 以 EXPORT SYMBOL 导出 


一 般 认 为 ， 保 守 的 做 法 是 Linux 内 核 不 能 使 用 非 GPL 许可 权 。 


All 总 结 


本 草 主 要 讲解 了 Linux 内 核 模块 的 概念 和 基本 的 编程 方法 。 内 核 模块 由 加 载 / 凶 载 函数 、 功 能 函数 以 及 
一 系列 声明 组 成 ， 它 可 以 被 传 入 参数 ， 也 可 以 导出 从 写 供 其 他 模块 使 用 。 


由 于 Linux 设 备 张 动 以 内 核 模 其 的 形式 存在 ， 因 此 ， 笃 握 这 一 章 的 内 容 是 编写 任何 设备 张 动 的 必需 。 


第 $ 间 ”Linux 文件 系统 与 设备 文件 
AS Bt GE 


EF Ce PE a 8 a BS EP A IS ESOP CT EA, 3ÉjéLinux OF ARS. Be CTE 
FRSC AL WA w FA 4 RC TF 


Hoc, MARAL REAR AB St Val Hl BKCPE RA CAN TET AA) 被 访问 ， 而 设备 
驱动 的 结构 最 终 也 十 为 了 迎合 所 供给 应 用 程序 员 的 API。 


其 次 ， 驱 动工 程 师 在 设备 驱动 中 不 可 避免 地 会 与 设备 文件 系统 打交道 ， 包 括 从 Linux 2.4 内 核 的 devfs 文 
件 系 统 到 Linux 2.6 以 后 的 udev。 


5.1 廊 讲解 了 通过 Linux API 和 C 库 函数 在 用 户 空 间 进行 Linux 文 件 操 作 的 编程 方法 。 


5.2 节 分 析 了 Linux 文 件 系 统 的 目录 结构 ， 人 简单 介绍 了 Linux 内 核 中 文件 系统 的 实现 ， 并 给 出 了 文件 系统 
与 设备 驱动 的 天 系 。 


5.3 节 和 5.4 节 分 别 讲解 Linux 2.4 内 核 的 devfs 和 Linux 2.6 以 后 的 内 核 所 采用 的 udev 设 备 文件 系统 ， 并 分 
析 了 两 者 的 区 别 。5$.4 节 还 重点 介绍 了 Linux 的 设备 张 动 模 型 、sys 氏 以 及 udev 的 规则 编写 。 


5] Linux CPF REE 


5.1.1 文件 操作 系统 调用 


Linux 的 文件 操作 系统 调用 《〈“ 在 Windows 编 程 领域 ， 习 惯 称 操 作 系统 近 供 的 接口 为 API) 涉及 创建 、 打 
开 、 访 号 和 关闭 文件 。 


1 .创建 


ADD Creal (Const char ^rxlename, mode C mode); 


参数 mode 指 定 新 建文 件 的 存 取 权限 ， 它 同 umask 一 起 决定 文件 的 最 终 权 限 (mode&umask) ， 其 中 ， 
umask 代 表 了 文件 在 创建 时 需要 去 挥 的 一 些 存 取 权 限 。umask 可 通过 系统 调用 umask O 来 改变 : 


int umask(int newmask); 


该 调用 将 umask 设 置 为 ewmask， 然 后 返回 旧 的 umask， 它 只 有 影 啊 话 、 写 和 执行 权限 。 


2. 打 开 


int open(const char *pathname, int flags); 
int open(const char *pathname, int flags, mode t mode); 


open O PALA TEX, ZH Ppathnamezé3/1]1223] 21 By x fF CRI ERR. GUB IE 7JTE SA 
路 径 下 面 ) ，flags 可 以 是 表 $.1 中 的 一 个 人 或 者 是 几 个 信 的 组 合 


X5. 文件 打开 标志 


标 志 a X 
O RDONLY 以 只 读 的 方式 打开 文件 
O WRONLY 以 只 写 的 方式 打开 文件 
O RDWR 以 读 写 的 方式 打开 一 
O APPEND VB BST RFT FP CH 
O CREAT 创建 一 个 文件 
O_EXEC 如 条 使 用 了 O CREAT 而 且 文 件 已 经 存在 ， 就 会 发 生 一 个 错误 
O NOBLOCK 以 非 阻 塞 的 方式 打开 一 个 文件 
O TRUNC 如 果 文 件 已 经 存在 ， 则 删除 文件 的 内 容 | 


O RDONLY、O WRONLY、O RDWR 三 个 标志 只 能 使 用 任意 的 一 个 。 


如 果 使 用 了 O CREATE 标 志 ， 则 使 用 的 水 数 是 int open (const char*pathname, int flags, mode t 
mode) ; 这 个 时 候 我 们 还 有 贾 指 定 mode 标 忘 ， 以 表示 文件 的 访问 权限 。mode 可 以 是 表 5.2 中 所 列 值 的 组 合 。 


45.2 ”文件 访问 权限 


标 E 4 " 
S IRUSR 用 户 可 以 读 
S IWUSR 用 ， 


|) 
j 户 可 以 写 
S IXUSR 用 户 可 以 执行 
jJ 


S_IRWXU 用 户 可 以 谈 、 写 、 执 行 
S_IRGRP 组 可 以 读 

S IWGRP 组 可 以 写 

S IXGRP 组 可 以 执行 

S IRWXG 组 可 以 恋 、 写 、 执 行 
S_IROTH 其 他 人 可 以 读 

S IWOTH 其 他 人 可 以 写 

S IXOTH 其 他 人 可 以 执行 
S_IRWXO 其 他 人 可 以 读 、 写 、 执 行 
S ISUID 设置 用 户 执行 ID 
S_ISGID 设置 组 的 执行 ID 


除了 可 以 通过 上 述 宏 进行 “或 ”地 辑 产生 标志 以 外 ， 我 们 也 可 以 目 己 用 数 子 来 表示 ，Linux 用 5 个 数字 来 
表示 文件 的 各 种 权限 : 第 一 位 表示 设置 用 户 ID; 第 二 位 表示 设置 组 ID; 第 三 位 表示 用 户 自 己 的 权限 位 ; 
此 四 位 表示 组 的 权限 ; 最 后 一 位 表示 其 他 人 的 权限 。 每 个 数字 可 以 取 1 (执行 权限 ) 、2《 写 权限 ) 、 

4《 谈 权限 ) 、0 (无 ) 或 者 是 这 些 值 的 和 和。 例如 ， 要 创建 一 个 用 尸 可 读 、 可 写 、 可 执行 ， 但 古 组 没有 似 
上 腿 ， 其 他 人 可 以 读 、 可 以 执行 的 文件 ， 并 设置 用 尸 ID 人 位， 那么 应 该 使 用 的 模式 是 1 设置 用 刻 ID) 、 


T? 


0 (不 设置 组 ID) 、7 C12244, iX. 5. Ar). 0 (没有 权限 ) 、5 (1+4， 读 、 执 行 ) 即 10705: 


open('" test", O CREAT; 10 705); 


open("test", O CREAT, S IRWXU | S IROTH | S IXOTH | S ISUID ); 


WIR VEST IF RK, open&R C ZoR [B] — OAT, DU ASC TEEN PUE ERSTE SC n] LABIOS] 367] 9C 
件 描述 符 进 行 操 作 来 实现 。 


在 文件 打开 以 后 ， 我 们 才 可 对 文件 进行 读 写 ，Linux 中 提供 文件 读 写 的 系统 调用 是 read、write 函 数 : 


ipt rsad(int td, const Void *Dur, size... length)? 
int WE 1d; Conse vold “Dur, size: © lengli); 


AU. Sýr AA KA, lengthZgZE TP XNA Ce TAH) 。 函 数 read() 实现 从 
FRIS AT E E I A HP is length F Aburi Fe, RIM ASE Po a. K 
JitwriteSz Bl Elength ^£ 5 MA bufs H HI DX. Hj 53 PRA AAT ILI OCT HR. ANEA 
字 节 数 。 


以 O_CREAT 为 标记 的 open 实 际 上 实现 了 文件 创建 的 功能 ， 因 此 ， 下 面 的 函数 等 同 于 creat〈() 函数 : 


int open(pathname, O CREAT | O WRONLY | O TRUNC, mode); 


4. 定 位 
对 于 随机 文件 ， 我 们 可 以 随机 指定 位 置 进行 读 写 ， 使 用 如 下 函数 进行 定位 : 
和 


lseek〈) 将 文件 谈 写 指针 相对 whence 移 动 ofet 个 字 和 有。 操作 成 功 时 ， 返 回 文件 指针 相对 于 文件 头 的 
位 置 。 参 数 whence 可 使 用 下 述 值 : 


SEEK SET: 相对 文件 开头 

SEEK CUR: 相对 文件 谈 与 指针 的 当前 位 置 

SEEK END: 相对 文件 末尾 

ofRset 可 取 负 值 ， 例 如 下 述 调 用 可 将 文件 指针 相对 当前 位 置 同 前 移动 S 个 字 节 : 


lseek(fd, -5, SEEK CUR); 


HF lIseek ek Zo BJ 3 IE ASC ta ETAT T OCT SA EL BE id id A BRL ERE CS OCT HZ s 


lseek(fd, 0, SEEK END); 


SKA 


当 我 们 操作 完成 以 后 ， 要 关闭 文件 ， 些 时， 只 要 调 用 close 融 可 以 了 ， 其 中 妈 古 我 们 要 关闭 的 文件 拍 述 


Ar 


AY: 


int close (int fd); 


例 程 : Ju S— SREP, FESR Ae TUEN YP nup Xthelletxt, EFAS A“Hello, software 
weekly”, KAIZ XIF. FURST ARIA, BERN A AFP a DEBER: E. 


解答 如 代码 清单 $.1。 
代码 清单 $.1 Linux 文 件 控 作用 户 空 间 编 程 〈 使 用 系统 调用 ) 


#include <sys/types.h> 
#include <sys/stat.h> 
finclude «fontl.h» 
#include <stdio.h> 
#define LENGTH 100 
main () 
{ 

int fd, len; 

char str[LENGTH]; 


e O tO OO =] oy COM 3 to BO PI 


= H 


fd = open("hello.txt", O CREAT | O RDWR, S IRUSR | S IWUSR); /* 


l2 
Lo 
14 
La 
16 
1 
18 
19 
20 
PAN 
22 
23 
24 


fd, "Hello World", strlen("Hello World")); 


A 
Loy 


hello.txt", O RDWR); 
fd, str, LENGTH); /* 读 取 文件 内 容 */ 


创建 并 打开 文件 */ 

Iit £fd) 4 
write( 
写 入 字符 串 
close ( 

) 

fd = open(" 

len = read ( 

str[len] = 


Ee 


Printt("ss\n", Str); 
close(fd); 


} 


i VET 


3 — P teu 


IZ 1T, 


执行 结果 为 输出 “Hello World". 


/* 


5.1.2 C 库 文件 操作 


C 库 困 数 的 文件 操作 实际 上 独立 于 具体 的 操作 系统 平台 ， 不 管 是 在 DOS、Windows、Linux 还 是 在 
VxWorks 中 都 是 这 些 函 数 : 


1 .创建 和 打开 


iLE *~Lopen (const char “path, Const. char *mode); 


fopen O 用 于 打开 指定 文件 flename， 其 中 的 mode 为 打开 模式 ，C 库 图 数 中 文 持 的 打开 模 陈 如 表 S$.3 所 


小。 


425.3 CERAI HERE 


标 志 a 义 
r, rb 以 只 读 方式 打开 
w, wb 以 只 写 方式 打开 。 如 果 文 件 不 存在 ， 则 创建 该 文件 ， 和 否则 文件 被 截断 
a, ab 以 追加 方式 打开 。 如 果 文 件 不 存在 ， 则 创建 该 文件 
rt. rtb, rbt+ 以 谈 写 方式 打开 
w+, w+b, wht 以 读 写 方式 打开 。 如 果 文 件 不 存在 时 ， 创 建新 文件 ， 和 否则 文件 被 截断 
a+, atb, abt 以 读 和 追加 方式 打开 。 如 果 文 件 不 存在 ， 则 创建 新 文件 


其 中 ，b 用 于 区 分 二 进 制 文件 和 文本 文件 ， 这 一 点 在 DOS、Windows 系 统 中 是 有 区 分 的 ， 但 Linux 个 区 
分 二 进 制 文件 和 文本 文件 。 


C 库 函数 文 持 以 字符 、 字 符 串 等 为 单位 ， 文 持 按照 示 种 格式 进行 文件 的 读 写 ， 这 一 组 函数 为 : 


int fgetc(fiLE *stream); 

int fputc(int c, fiLE *stream); 

char *Igets(char *$. int n, LLLBE ^stream); 

int. f£puts(const char *s, file *stream); 

rnt fprintrf(ribLbs “stream, Const Char “tormaty s=)? 

int. fscanr (I1LE *Stream, Const char *fOrmat, e); 

gize © Iroad (VOLd “ptr; Size C Size, size Lb ny IILE orean); 

Size LL IWIIlte. (CONSE vord “ptr, S1276 C Size; Size X n, TILE *sceream); 


fread O 实现 从 流 Cstream) 中 读 取 n 个 字段 ， 每 个 字段 为 size 字 节 ， 并 将 读 取 的 字段 放 入 ptr 所 指 的 字 
符 数 组 中 ， 返 回 实 际 已 谈 取 的 字段 数 。 当 读 取 的 字段 数 小 于 num 时 ， 可 能 是 在 函数 调用 时 出 现 了 错误 ， 也 
可 能 是 旋 到 了 文件 的 结尾 。 因 此 要 通过 调用 fksof O 和 ferror O 来 判断 。 


write O 实现 从 绥 冲 区 ptr 所 指 的 数组 中 把 n 个 字段 写 到 流 (stream)〉 中 ， 每 个 字段 长 为 size 个 字 节 ， 返 
Sep SAN FER 


Fab, CHerki abe tt Sie SW PAE DLAEZI, HERR AeA: 


int £getpos (ILLE *stream, fpos t ^pos); 
Int fsetpos(rLLE *stream, const IPOS C Tpos)? 


int fseek(fiLE *stream, long offset, int whence); 
3. X Hj] 
AI FIC Eg PRI BK PH OCT TK ze TB. fn] PIRE : 


int fclose (fiLE *stream); 


PRÉ: 将 第 5.1.1 市 中 的 例 程 用 C 库 函数 来 实现 ， 如 代 公 清单 5-2 所 示 。 
代 但 清单 52 Linux L FREH P TE Hte UEH CE KZO 


1 includa <stdio.h> 
2 #define LENGTH 100 
3 main () 


8 LLLE “Las 

6 char str[LENGTH]; 
7 

8 


fd = fopen("hello.txt", "w+");/* 创建 并 打开 文件 */ 
9 1f (fd) 1 


10 fputs("Hello World", fd); /* 写 入 字符 串 */ 
11 fclose (fd); 

12 } 

13 

14 fd = fopen("hello.txt", "r"); 

15 fgets(str, LENGTH, fd); /* 读 取 文件 内 容 */ 


16 人 
iy, fclose (fd); 


52 Linux X(t At 


5.2.1] LinuxX FA Zt H RKA 


进入 Linux 根 目录 〈 即 “六 ，Linux 文 件 系 统 的 入 口 ， 也 是 处 于 最 高 一 级 的 目录 ) ， 运 行 "s- 命令， 看 
到 Linux 包 含 以 下 日 如 。 


1./bin 
包含 基本 命令 ， 如 1s、cp、mkdir 等 ， 这 个 目录 中 的 文件 都 是 可 执行 的 。 
2./Sbln 


包含 系统 命令 ， 如 modprobe、hwclock、ifeconfig 等 ， 大 多 是 涉及 系统 党 理 的 命令 ， 这 个 目录 中 的 文件 
都 是 可 执行 的 。 


3./dev 
设备 文件 存储 目 孙 ， 应 用 程序 通过 对 这 些 文件 的 谈 写 和 控制 以 访问 实际 的 设备 。 
4./etc 


系统 配置 文件 的 所 在 地 ， 一 些 服务 右 的 配置 文件 也 在 这 里 ， 如 用 户 账 志 及 复合 配置 文件 。busybox 的 
局 动 脚本 也 存放 在 该 目录 。 


5./lib 
系统 库 文 件 存放 目录 等 。 
6./mnt 


/mmt 这 个 目录 一 般 是 用 于 存放 挂 载 储存 设备 的 挂 载 目录 ， 比 如 含有 cdrom 等 目录 。 可 以 参看 /etc/fstab 的 
定义 。 有 时 我 们 可 以 让 系统 开机 目 动 挂 载 文 件 系 统 ， 并 把 挂 载 把 放 在 这 里 。 


7./opt 
opt 是 “可 选 ” 的 意思 ， 有 些 软件 包 会 被 安装 在 这 里 。 
8 ./proc 


操作 系统 运行 时 ， 进 程 及 内 核 信息 (比如 CPU、 人 硬盘 分 多 、 内 存 信 息 等 ) 存放 在 这 里 。/proc 目 录 为 伪 


文件 系统 proc 的 挂 载 目 孙 ，proc 并 不 是 真正 的 文件 系统 ， 它 存在 于 内 存 之 中 。 
9./tmp 
FAY ITEWE, ANRE, tmp FA RAF BCI YY SCF e 
10./usr 
X^ xe RAIN Ao, COO Pare. HAPET., 
11./var 
var 表 示 的 是 变化 的 意思 ， 这 个 目录 的 内 容 经 第 变动 ， 如 /var 的 /varlog 目 录 被 用 来 存放 系统 日 志 。 
12./sys 


Linux 2.6 以 后 的 凡 核 所 文 持 的 sys 氏 文件 系统 航 上 映射 在 此 目录 上 。Linux 设 备 张 动 借 型 中 的 上 总线、 驱动 
和 设备 都 可 以 在 sys 氏 文件 系统 中 找到 对 应 的 和 点 。 当 站 核 检 名 到 在 系统 中 出 现 了 新 设备 后 ， 内 核 会 在 sys 全 
文件 系统 中 为 访 新 设备 生成 一 项 新 的 记录 。 


5.2.2 Linux 文件 系统 与 议 备 张 动 


图 $.1 所 示 为 Linux 中 虚拟 文件 系统 、 倍 盘 /Flash 文 件 系统 及 一 般 的 设备 文件 与 设备 劲 程序 之 间 的 天 
系 。 


应 用 程序 和 VEFS 之 间 的 接口 是 系统 调用 ， 而 VES 与 文件 系统 以 及 设备 文件 之 间 的 接口 是 file operations 
结构 体 成 员 困 数 ， 这 个 结构 体 包 念 对 文件 进行 打开 、 关 团 、 恋 写 、 控 制 的 一 系列 成 员 图 数 ， 天 系 如 网 5.2 
所 示 。 


由 于 字符 设备 的 上 层 没有 类 似 于 磁盘 的 ext2 等 文件 系统 ， 所 以 字符 设备 的 fle_ operations EX, 51 R BUM EL 
接 由 设备 驱动 提供 了 ， 在 稍 后 的 第 6 章 ， 将 会 看 到 fle operations 正 是 字符 设备 驱动 的 核心 。 块 设备 有 两 种 
访问 方法 ， 一 种 方法 是 不 通过 文件 系统 直接 访问 裸 设 备 ， 在 Linux 内 核实 现 了 统一 的 def blk fops 这 一 
file operations, "E HJ V4 T fs/block devc， 所 以 当 我 们 运行 茯 似 于 “dd if=/dev/sdb1 of=sdb 1 .img” KIMS 
把 整个 /dewsdb1 禄 分 区 复制 到 sdbl.img 的 时 候 ， 凡 核 走 的 是 def blk fops 这 个 fle operations; 万 外 一 种 方法 
过 文件 系统 来 访问 块 设备 ，file_operations 的 实现 则 位 于 文件 系统 内 ， 文 件 系统 会 把 针对 文件 的 读 写 转 
换 为 针对 块 设备 原始 而 区 的 谈 写 。ext2、fat、Btr 等 文件 系统 中 会 实现 针对 VFS 的 file operations 成 员 函 
数 ， 设 备 驱 动 层 将 看 不 到 file_operations 的 存在 。 





图 5.1 文件 系统 与 设备 驱动 之 则 的 关系 


fd=open("/dev/xxx",O RDWR,0); 


Linux 内 核 


VW tir SK oY pF] AX Xxx read 
| EG n 


图 $.2 ”应 用 程序 、VEFS 与 设备 驱动 











在 设备 驱动 程序 的 设计 中 ， 一 般 而 言 ， 会 关心 人 le 和 inode 这 两 个 结构 体 。 


1.file 结 构 体 


file 结 构 体 代表 一 个 打开 的 文件 ， 系 统 中 每 个 打开 的 文件 在 内 核 空间 都 有 一 个 关联 的 struct file。 它 由 内 
核 在 打开 文件 时 创建 ， 并 传递 给 在 文件 上 进行 操作 的 任何 函数 。 在 文件 的 所 有 实例 都 关闭 后 ， 内 核 释 放 这 
个 数据 结构 。 在 内 核 和 驱动 源 代码 中 ，struct file 的 指针 通常 被 命名 为 fle 或 flp〈 即 file pointer) 。 人 代码 清单 
5.3 给 出 了 文件 结构 体 的 定义 。 


代码 清单 5.3 ”文件 结构 体 


EEC wae: { 

2 union { 

3 Struct. Llig node ED Ju 

4 SUtPUCt rou mead fu x+cuneaa; 

S ) fu; 

6 struct path f path; 

7 #define f dentry t path.denbry 

8 struct inode xf inode; /* cached value */ 
2) Comet. Struct iile Opeétgdtrons^t Op; /* 和 文件 关联 的 操作 * / 
10 
ld 7% 


12 ES 
13 * Must not be taken from IRQ context. 


14 ny 

15 Spinlock t L Lock; 

16 atomic long t If Count; 

17 unsigned int E Lass / * 文 件 标 志 ,， 如 O RDONLY、O NONBLOCK. O SYNC*/ 
18 Imode t f mode; / * 文 件 读 / 写 模式 , FMODE READAIFMODE WRITE*/ 
19. struct mutex L pos lock, 

20. loff t pon /* 当前 读 写 位 置 */ 
2 

22. CONOC SUEHUCL Cred Pi, Chea, 

29. BtEICEL thle Ta DUITE way 

24 

25 u64 VOroLon 

QTL CONTIG SECURITY 

21 void ^ Ge CUCL? 

28 #endif 

29 /* needed for tty driver, and maybe others */ 

30 void *private data; / * 文 件 私 有 数据 * / 

31 


32 #ifdef CONfiG EPOLL 
33 /* Used by fs/eventpoll.c to link all the hooks to this file */ 


34 struct lisi head rf ep links; 

Jo Seruce. liol head L Gile LLINK 

36 #endif /* #ifdef CONfiG EPOLL */ 

2L Struct address spaocs^l Mapping; 

38 } attribute ((aligned(4))); /* lest something weird decides that 2 is OK */ 


文件 读 / 写 模式 mode、 标 志 f flags 都 古 设 备 驱 动 天 心 的 内 容 ， 而 私有 数据 指针 private data 在 设备 驱动 
中 被 广泛 应 用 ， 大 多 修 指 问 设 备 驱 动 目 定 义 以 用 于 摘 述 设备 的 结构 体 。 


下 面 的 代码 可 用 于 判断 以 阻 突 还 十 非 阻 和 里 方 式 打 开设 备 文件 : 


if (file->f flags & O NONBLOCK) /* 非 阻塞 * / 
pr debug ("open: non-blocking\n") ; 

else /* 阻塞 */ 
pr debug("open: blocking in"); 


2 inodeZi T4 8 


VES inode 包 含 文件 访问 权限 、 属 主 、 组 、 大 小 、 生 成 时 间 、 访 问 时 间 、 最 后 修改 时 间 等 信息 。 它 是 
Linux 管 理 文 件 系统 的 最 基本 单位 ， 也 是 文件 系统 连接 任何 子 目 孙 、 文 件 的 桥 染 ，inode 结 构 体 的 定义 如 代 
人 码 清单 5.4 所 示 。 


代码 清单 $.4 ”inode 结 构 体 


L Struct. inode 1 
2 m 
8 umode t i mode; /* inode 的 权限 */ 
4 uid t X uid; /* inode 拥 有 者 的 id */ 
B gid t X gio /* inode 所 属 的 群 组 jd */ 
6 dev t i rdev; /* 若是 设备 文件 ， 此 字段 将 记录 设备 的 设备 号 */ 
7 loff t i size; /* 1nodeBUHBDB AUN */ 
8 
9 struct timespec i atime; /* inode 最 近 一 次 的 存 取 时 间 */ 
10 struct timespec i mtime; /* ijnode 最 近 一 次 的 修改 时 间 */ 
11 struct timespec i ctime; /* inode 的 产生 时 间 */ 
12 
1.2 unsigned int Y JU DIG 
14 bikent t i blocks; /* Inoaqe 所 使 用 的 pocK 数 ， 一 个 pLOcCK 为 9512 字 节 */ 
15 union { 
1:5 struct pipe inode inmo =L pipe; 
17 struct DIOCK device “1. Ddev; 
18 /* 若是 块 设备 ， 为 其 对 应 的 pLlocKk device 结 构 体 指针 */ 
193 struet cdey *i_cdev; /* 若是 字符 设备 ， 为 其 对 应 的 Cdev 结 构 体 指针 */ 
20 } 
21 
22 ]; 


对 于 表示 设备 文件 的 inode 结 构 ，i rdev 字 上 段 包 含 设备 编写 。Linux 内 核 人 设备 编写 分 为 主 设 备 编 本 和 次 设 
备 编号 ， 前 者 为 dev {t 的 高 12 位 ， 后 者 为 dev {t 的 低 20 位 。 下 列 操 作用 于 从 一 个 inode 中 获得 主 设 备 号 和 座 议 
A uy: 


unsigned int iminor(struct inode *inode); 
unsigned int imajor(struct inode *inode); 


谷 看 /proc/devices 文 件 可 以 获知 系统 中 注册 的 设备 ， 第 1 列 为 主 设备 号 ， 第 2 列 为 设备 和 名， 如 : 


Character devices: 
1 mem 
pty 
ttyp 
/dev/vc/0 
tty 
/dev/tty 
/dev/console 
/dev/ptmx 
1 vcs 
10 misc 
13 input 
2l Sg 
29 fb 
128 ptm 
136 pts 
171 ieeel1394 
180 usb 
Led usb: device 
Block devices: 
1 ramdisk 
2 fd 
8 sd 
9 md 
22 idel 


mow wk A W DN 


BA/dev HRA LARA Ra LS ce SOE, HARAI S HARANERA A 


EE 


人 = l. root uucp 4, 64 Jan 30 2003 /dev/ttySO 
brw-rw---- 1 root disk 8, 0 Jan 30 2003 /dev/sda 


主 设备 号 是 与 驱动 对 应 的 概念 ， 同 一 奖 设 备 一 般 使 用 相同 的 主 设备 号 ， 不 同 奖 的 设备 一 般 使 用 不 同 的 
主 设备 号 〈 但 是 也 不 排除 在 同一 主 设 备 号 下 包 人 台 有 一 定 天 异 的 设备 ) 。 因 为 同一 驱动 可 文 持 多 个 同 奖 议 
备 ， 因 此 用 次 设备 气 来 描述 使 用 访 驱 动 的 设备 的 序 亏 ， 序 号 一 般 从 0 开始 。 

^ fZ Documents H 3X F Hjdevices.txt X: ff-d533^ f Linuxix $$ 5 HJ^y Bud, C HLANANA (the Linux 


Assigned Names and Numbers authority, PX 7yjhttp://www.lanana.org/) 组 织 维护 ，Torben 


Mathiasen (device@lanana.org) 是 其 中 的 主要 维护 者 。 


5.3 devfs 


devs (设备 文件 系统 ) zi Hd Linux 2.4 AA, SAN RYE e LIS > Sever, "BU AE 
租 设 备 张 动 程 序 能 目 主 地 管理 目 己 的 设备 文件 。 有 基体 来 说 ，devf 具 有 如 下 优点 。 


1) 可 以 退 过 程序 在 设备 初 妈 化 时 在 /dev 目 录 下 创建 设备 文件 ， 凶 载 设 备 时 将 它 删 除 。 
2) 设备 驱动 程序 可 以 指定 设备 名 、 所 有 者 和 权限 位 ， 用 户 空 间 程 序 仍 可 以 修改 所 有 者 和 权限 位 。 


3) 不 再 需要 为 设备 驱动 程序 分 配 主 设备 写 以 及 处 理 炊 设备 写 ， 在 程序 中 可 以 了 直接 给 
register chrdev () 传 违 0 主 设备 号 以 获得 可 用 的 主 设备 写 ， 并 在 devfs_register() 中 指定 次 设备 号 。 


驱动 程序 应 调用 下 面 这 些 孙 数 来 进行 设备 文件 的 创建 和 撤销 工作 。 


/* 创建 设备 目录 */ 

devis handle t devig mk dauridevis handie T day, Const Char “natic, ord *1nto); 

/* 创建 设备 文件 */ 

devis handle t devis register(devis handle t dir; Const Char “name, unsigned 
int. Ilags, Unsigned int major, unsigned ant minor, umode t mode, void “ops, 
vöid *inio)? 

/* 撤销 设备 文件 */ 

void devis unregister(devrls handle ue); 


在 Linux 2.41] V Koa Fins AP ATER ERI. EER R CUP GU SE ASR Dt fi OCT E ce A 2S OK H3 2T TH. 
得 大 力 推 荐 的 好 方法 。 人 代码 清单 5.5 给 出 了 一 个 使 用 dev 氏 的 范例 。 


代码 清单 $S.$ dev 氏 的 使 用 范例 


Ll Static devio handle t devis handle; 


2 Scarl.e INE . Inte xxx LImnlt(votdo) 

2 4 

4 int ret; 

5 inL iz 

6 /* 在 内 核 中 注册 设备 */ 

ret = register chrdev (XXX MAJOR, DEVICE NAME, &xxx fops); 
8 if (ret < 0) { 

9 printk (DEVICE NAME " can't register major number\n"); 
10 return ret; 

LUN ) 

12 /* 创建 设备 文件 */ 

13 devis handle =devfs register (NULL, DEVICE NAME, DEVFS FL DEFAULT, 
14 XXX MAJOR, 0, S IFCHR | S IRUSR | S IWUSR, &xxx fops, NULL); 
dc bau 

16 printk(DEVICE NAME " initialized\n"); 

17 return 0; 

18 } 

19 
20 static void exit xxx exit(void) 
Zl 4 
zd devfs unregister(devfs handle); /* 撤销 设备 文件 */ 
23 unregister chrdev (XXX MAJOR, DEVICE NAME);  /* 注销 设备 */ 
24 } 
ZO 


26 module 1niU(xxx snarl); 
27 module exit (xxx exit); 


代码 中 第 7 行 和 第 23 行 分 别 用 于 注册 和 注销 字符 设备 ， 使 用 的 register chrdev〈) 和 
unregister chrdev () 在 Linux 2.6 以 后 的 内 核 中 仍 补 采用。 第 13 和 22 行 分 别 用 于 创建 和 删除 dev 人 文件 于 


点 ， 这 些 API 已 经 被 删除 了 。 


5.4 udevH]P TERRE EE 
54.1 udev5devfsB IX jl 


尽管 devfs 有 这 样 和 那样 的 优点 ， 但 是 ， 在 Linux 2.6 内 核 中 ，devfs 被 认为 是 过 时 的 方法 ， 并 最 终 被 抛 
FJ, udev f "E. Linux VFS 内 核 维护 者 Al Viro 指 出 了 几 扣 udev 取 代 devfs 的 原因 : 


1) devfs 所 做 的 工作 被 确信 可 以 在 用 尸 态 来 完成 。 

2) devfs 倍 加 入 内 核 之 时 ， 大 家 期 望 它 的 质量 可 以 迎 尖 赶 上 。 

3) 友 现 devfs 有 一些 可 修复 和 无 法 修复 的 bug。 

4) 对 于 可 修复 的 bug， 几 个 月 前 就 已 经 被 修复 了 ， 其 维护 者 认为 一 切 民 好 。 
50 对 于 后 者 ， 在 相当 长 的 一 段 时 间 内 没有 改观 。 

6) devfs 的 维护 者 和 作者 对 它 感到 失明 并 且 已 经 停止 了 对 代码 的 维护 工作 。 


Linux A AN PA ic ora, Richard Gooch (devfs 的 作者 ) 和 Greg Kroah-Hartman (sys 人 的 主要 作者 ) Wi 
devfs/udev 进 行 了 激烈 的 争论 : 


Greg: Richard had stated that udev was a proper replacement for devfs. 

Richard: Well, that's news to me! 

Greg: devfs should be taken out because policy should exist 1n userspace and not in the kernel. 
Richard: sysfs, developed in large part by Greg, also implemented policy in the kernel. 
Greg: devfs was broken and unfixable 

Richard: No proof.Never say never... 

XX BECHER ve HI RR VEAI P: 

Greg: Richard 已 经 指出 ，udev 是 devR 合 适 的 符 代 品 。 

Richard: 哦 ， 我 怎么 不 知道 ? 


Greg: devs MIZ FR AARMA TF H N T A AAE A t T. 


Richard: 哦 ， 由 Greg 完 成 大 部 分 工作 的 sysfs 也 在 内 核 中 实现 了 开 略 。 
Greg: devfs 很 紧 脚 ， 也 不 稳定 。 
Richard: WW, uE, WAARA... 


在 Richard Gooch 和 Greg Kroah-Hartman 4-16 F, Greg Kroah-Hartman(# H HEE W A HE E F 
policy (REK) 不 能 位 于 内 核 空间 中 。Linux 设 计 中 强调 的 一 个 基本 观点 是 机 制 和 策略 的 分 离 。 机 制 是 做 某 
样 事情 的 固定 步 又、 方法， 而 策略 就 是 每 一 个 步骤 所 采取 的 不 同方 式 。 机 制 是 相对 固定 的 ， 而 每 个 步骤 采 
用 的 策略 是 不 固定 的 。 机 制 是 稳定 的 ， 而 策略 则 是 灵活 的 ， 因 此 ， 在 Linux 内 核 中 ， 不 应 该 实现 策略 。 


比如 Linux 提 供 API 可 以 让 人 把 线程 的 优先 级 调 高 或 者 调 低 ， 或 者 调整 调度 略 为 SCHED FIFO 什 么 
的 ， 但 是 Linux 内 核 本 身 却 不 管 谁 高 谁 低 。 提 供 API 属 于 机 制 ， 谁 高 谁 低 这 属于 策略 ， 所 以 应 该 是 应 用 程序 
自己 去 告诉 内 核 要 高 或 低 ， 而 内 核 不 管 这 些 杂 事 。 同 理 ，Greg Kroah-Hartman 认 为 ， 属 于 策略 的 东西 应 该 
被 移 到 用 户 空 间 中 ， 谁 爱 给 哪个 设备 创建 什么 名 字 或 者 想 做 更 多 的 处 理 ， 谁 自己 去 设 定 。 内 核 上 只管 把 这 些 
言 息 告 诉 用 户 就 行 了 。 这 就 是 位 于 内 核 空间 的 devf8 应 该 被 位 于 用 户 空间 的 udev 取 代 的 原因 ， 应 该 devfs 管 
了 一 些 不 靠 谱 的 事情 。 


下 面 举 一 个 通俗 的 例子 来 理解 udev 设 计 的 出 发 点 。 以 谈 恋 爱 为 例 ，Greg Kroah-Hartman 认 为 ， 可 以 让 
内 核 近 供 谈 恋爱 的 机 制 ， 但 是 不 能 在 内 核 空间 中 限制 跟 谁 次 恋 妥 ， 不 能 把 谈 恋 爱 的 人 略 放 在 内 核 空 间 。 
为 有 悉 爱 是 目 由 的 ， 用 户 应 该 可 以 在 用 尸 空 间 中 实现 “ 柬 卜 日 采 ， 各 有 所 爱 ” 的 理想 ， 可 以 根据 对 方 的 外 貌 、 
籍 员 、 性 格 等 自由 选择 。 对 应 devfs 而 言 ， 第 1 个 相亲 的 女孩 锐 命 名 为 /dev/girl0， 第 2 个 相 羔 的 女孩 馈 命 名 
为 /dev/girl1， 以 此 类 推 。 而 在 用 尸 空间 实现 的 udev 则 可 以 使 得 用 尸 实现 这 样 的 目 由 : AEP YR PRE 2C P200 


第 儿 个 ， 只 要 它 写 你 定义 的 规则 人 符合， 痢 命 名 为 /dev/mygirl! 


udev 完 全 在 用 己 态 工作 ， 利 用 设备 加 入 或 移 除 时 内 核 所 肥大 的 热 择 拔 事件 《Hotplug Event) 来 工作 。 
在 热 插 拔 时 ， 设 备 的 详细 信息 会 由 内 核 通 过 netlink 克 接 衬 肥 大 出 来 ， 及 出 的 事情 叫 uevent。udev 的 设备 命 
名 全 略 、 权 限 控制 和 事件 处 理 都 是 在 用 户 态 下 完成 的 ， 它 利用 从 和 内核 收 到 的 信息 来 进行 创建 设备 文件 下 局 
等 工作 。 代 人 码 清 单 $.6 给 出 了 从 内 核 通过 netlink 接 收 热 插 拔 事件 并 证 刷 挥 的 范例 ，udev 有 条 用 了 关 似 的 做 法 。 


代码 清单 5.6 ”netlink 的 使 用 范例 


#include <linux/netlink.h> 


1 

2 

3 static void die(char *s) 
a 

5 write(27; 8, strlen(s)); 
6 exit(1); 

7 } 

8 


Lane, Maw Cnc acge,. clar “argv |) 
10 { 
LE ,SEeUCE Sockadgreit: mis; 
12. Sbeuee, poll id: word; 
ld har pie. 7 i 
14 


15. 77 Open hotplug event netlink socket 


LT. MeEmset (ems. Oy GEZOS Truet GOC kaddar nd)» 
ie. mlsonli family S AP NETIDLINK; 
下 
2 


22 pfd.events = POLLIN; 
240 pidsid = SOCkeUt(PE NETLINK; SOCK. DGRAM, NETLINK KOBJECT URVENT); 


24 if (pfd.fd == -1) 
25 die("Not rootin": 
26 


21] f/f Listen to netlink socket 
20. I qornotprtoefoge (Ord “ysis, SIZO (suruce GoCckeddr mb). 


29 die('"Bind farled\n") 

20. while tel. POLLAS BEd; ly 193 4 
31 INL I. dem - pecv (pide fd, Dury Seo (DOE)s MSG DONIWAEIT); 
32 if (len == -1) 

33 dive( "recy wi") = 

34 

39 LL Printe the data to stdout. 
36 i = 0; 

3 while (i « len) { 

38 人 
39 t tS Str ben bur Se) Ve. Ls 
40 } 

41 } 

42 die("poll\n"); 

43 


44 // Dear gcc: shut up. 
45 return 0; 


编 详 上 述 程序 并 运行 ， 把 Apple Facetime HD Camera USB 摄 像 头 插入 Ubuntu， 访 程序 会 dump 类 似 如 下 
的 信息 : 


ACTION=add 

DEVLINKS-/dev/input/by-id/usb-Apple Inc. FaceTime HD Camera Built-in 
CC2B2FOTLSDG6LLO0-event-if00 /dev/input/by- path/pci- 0000:00:0b.0-usb-0:1:1.0-event 
DEVNAME=/dev/input/eventé 
DEVPATH-/devrces/DpDor0000:00/0000:00:$:0D.07uSbTl/TI-rI/1—15:1:0/10pugt/1n0puv6jyevente 
ID BUS-usb 

LED NEUSS 

LD INPUT KEY=1 

ID MODEl=Facelime HD Camera -Bunlt-rn 

ID MODEL ENC- FaceTime\x20HD\x20Camera\x20\x28Built-in\x29 

ID MODEL ID=8509 

ED. PAISNepor-0UDDPSDUSOD.uUeud sposi: 0 

ID PATH TAG-pci- 


udev 就 是 采用 这 种 方式 接收 netlink 消 息 ， 并 根据 它 的 内 容 和 用 户 设置 给 udev 的 规则 做 匹配 来 进行 工作 
的 。 这 里 有 一 个 问题 ， 就 是 冷 插 拔 的 设备 怎么 办 ? 冷 插 拔 的 设备 在 开机 时 就 存在 ， 在 udev 启 动 前 已 经 被 插 
入 了 。 对 于 冷 手 拔 的 设备 ，Linux 内 核 提 供 了 sysfs 下 面 一 个 uevent 衣 点， 可 以 往 访 市 点 写 一 个 “add”， 导 伊 
内 核 重 新 发 送 netlink， 之 后 udev 就 可 以 收 到 冷 插 拔 的 netlink 消 息 了 。 我 们 还 是 运行 代码 清单 5.6 的 程序 ， 并 
手动 往 /sys/module/psmouse/uevent 写 一 个 “add”， 上 述 程序 会 dump 出 来 这 样 的 信息 : 


ACTION=add 
DEVPATH=/module/psmouse 
SEQNUM=1 682 

SUBSYSTEM=module 

UDEV LOG-3 

USEC INITIALIZED-220903546792 


devfs 与 udev 的 男 一 个 显 兰 区 别 在 于 : MHdevfs, 24—7P3EASTE4EWJ/dev i AFAR, devfsHe 
动 加 载 对 应 的 驱动 ， 而 udev 则 不 这 么 做 。 这 是 因为 udev 鸭 设计 者 认为 Linux 应 该 在 设备 被 发 现 的 时 候 加 载 


驱动 模块 ， 而 不 是 当 它 被 访问 的 时 候 。udev 的 设计 者 认为 devfs 所 提供 的 打开 /dev 广 点 时 上 自动 加 载 驱 动 的 功 
能 对 一 个 配置 正确 的 计算 机 来 说 是 多 余 的 。 系 统 中 所 有 的 设备 都 应 该 产生 热 酝 拔 事件 并 加 载 恰当 的 张 动 ， 
Mudevaevt & $13x Ft ANE BET WT] e o 


5.4.2 sys 人 文件 系统 与 Linux 设 备 模型 


Linux 2.6 以 后 的 内 核 引 入 了 sysfs 文 件 系 统 ，sysfs 修 看 成 是 与 proc、devfs 和 devpty 辐 类 别 的 文件 系统 ， 
该 文件 系统 是 一 个 虚拟 的 文件 系统 ， 它 可 以 产生 一 个 包括 所 有 系统 便 件 的 层级 视图 ， 与 提供 进程 和 状态 信 
I proc X fF At 43 AM 


sys BEERE A Eg. ER] CRUS ZH AA MAP ERI SC TE, "EI AAH 28 Te) eC IH JP ER] 
吐出 内 核 数 据 结 构 以 及 它们 的 属性 。sysfs 的 一 个 目的 束 是 展示 设备 驱动 模型 中 各 组 件 的 层次 关系， 其 项 级 


目录 包括 block、bus、dev、devices、class、 信 、kernel、power 和 firmware 等 。 


block 目 录 包 含 所 有 的 块 设备 ，devices 目 录 包 含 系 统 所 有 的 设备 ， 并 根据 设备 挂 接 的 电线 类 型 组 织 成 
层次 结构 ; bus 目录 包 含 系统 中 所 有 的 总 线 类 型 ，class 目 录 包 含 系统 中 的 设备 类 型 (如 网 卡 设备 、 声 卡 设 
备 、 输 入 设备 等 ) 。 在 /sys 目 隶 下 运行 tree 会 得 到 一 个 相当 长 的 树 形 目录 ， 下 面 摘 取 一 部 分 


.I— block| | 一 loopO -> ../devices/virtual/block/loop0| I— loopl -> ../devices/virtual/block/loopl| I— loopz 
.. . |— bus| I—— ac97| | L— devices| | L— drivers| | drivers autoprobe| | L[— drivers probe| 
P I— i2c| | I—— devices| | | 一 drivers| | drivers autoprobe| | I-- drivers probe| | L— ue 
.. . |— class| ata device| | [— dev1.0 -> ../../devices/pci0000:00/0000:00:01.1/atal/linkl/devl.0/ata_devi 
. . — dev| I— block| | — 1:0 -> ../../devices/virtual/block/ram0| | 1:1 -> ../../devices/virtual/bl 
sal L_ char| — 10:1 -> ../../devices/virtual/misc/psaux| 10:184 -> ../../devices/virtual/misc/ 
. . — devices| I— breakpoint| | I— power | | I-- subsystem -> ../../bus/event source| | L— type| | 
...|— firmware 
.. — fs| I— cgroup| I-- ecryptfs| | L— version| I—— ext4| | -一 features| | L— sdal| | L— sdb. 
. . — module] I-- 8250| | I—— parameters | | L uevent| L— 8250 core| | I-—- parameters| | L— uevelr 
. . — power 

disk 


— image size 

I—— pm async 

| 一 reserved size 
一 resume 

L— state 

I[-—— wake lock 

I-- wake unlock 
L— wakeup count 


在 /$Sys/bus 的 pci 等 子 目 了 永 下 ， 又 会 再 分 出 drivers 和 devices 目 了 永 ， 而 devices 目 录 中 的 文件 是 对 /sys/devices 
目录 中 文件 的 从 号 链接 。 同 样 地 ，/sys/class 目 录 下 也 包含 计 多 对 /sys/devices 下 文件 的 链接 。 如 图 5.3 所 示 ， 
Linux 设 备 檬 型 与 设备 、 驱 动 、 忌 线 和 类 的 现实 状况 是 直接 对 应 的 ， 也 正人 符合 Linux 2.6 以 后 内 核 的 设备 模 
型 。 





儿 $.3 ”Linux 设备 模型 


中 看 拉 术 的 个 断 进步 ， 系 统 的 拓扑 结构 越 来 越 复 森 ， 对 入 能 电源 官 理 、 热 搬 拔 以 及 即 插 即 用 的 支持 要 


KERKE, Linux 2.4 内 核 已 经 难以 满足 这 些 需求 。 为 适应 这 种 形势 的 需要 ，Linux 2.6 以 后 的 内 核 开 友 
了 了 上述 全 新 的 设备 、 忆 线 、 类 和 驱动 环 坏 相 扣 的 设备 柑 型 。 图 5.4 形 象 地 表示 了 Linux 驱 动 模型 中 设备 、 忆 
线 和 类 之 间 的 天 系 。 


水 果 类 





图 5.4 ”Linux 驱 动 模 型 中 设备 、 忌 线 和 类 的 天 系 


大 多 数 情况 下 ，Linux 2.6 以 后 的 内 核 中 的 设备 驱动 核心 层 代 码 作 为 “ 菩 后 大 佬 ”可 处 理 好 这 些 天 系 ， 内 
核 中 的 总 线 和 其 他 内 核子 系统 会 完成 与 设备 模型 的 交互 ， 这 使 得 驱动 工程 师 在 编写 奔 层 驱动 的 时 候 几 平 不 
需要 关心 设备 模型 ， 只 需要 按照 每 个 框架 的 要 求 ,，“ 吉 此 式 ”地 填充 xxx driver 里 面 的 各 种 回调 函数 ，xxx 古 
总 线 的 名 字 。 


在 Linux 内 核 中 ， 分 别 使 用 bus type. device driver 和 device 来 描述 总 线 、 驱 动 和 设备 ， 这 3 个 结构 体 定 
义 于 include/linux/device.h 头 文件 中 ， 其 定义 如 代码 清单 $.7 所 示 。 


代码 清单 $S.7 bus type. device driver 和 device 结 构 体 


L struct Dus type 1 
2 const Char *name; 
E Conse Char ^dev name; 
4 struct device ded COOL 
5 struct device attribute *dev attrs; /* use dev groups instead */ 
6 CONSE Struct attribute. Group ““bus groups 
7 Const Struct attribure group *~*dev Groupe; 
8 Gonst Struct attribute group **drv groups; 
9 
10 it ("ma ehn) (Struct device dev, Struct device driver: *drv); 
11 lut (*uevenb)(struct device “dev, Struct Koby uevent env “eny) ; 
t2 int (*probe) (struct device *dev); 
13 int. (*remove) (Struct device ^dev); 
14 void (*shutdown) (struct device *dev); 
LS 
16 int (*online) (struct device *dev); 
1.7 int (*offline) (struct device *dev); 
18 
19 mt. (*suspend)(istruct device *dev, pm message ©. Stare), 
20 int (*resume) (struct device *dev); 
21 
22 const struct dev pm Ops “pm, 
23 
24 struct iommu ops *iommu Oops; 
23 
26 SULUCE. SUDSYS Private "p; 
E struct Lock Class key lock Key; 


29 
| 


2d const char *name; 

32 SeLucl DU ADS TOUS 

33 

34 struct module *owner; 

35 CONSE ‘char *mod name; /* used. for burltqin modules: *7 
36 

S bool suppress bind attrs; /* disables bind/unband via Systs. */ 
38 

o9 CO EEC ET device x "OL maton table 

40 CONS. “SUrucek. acpi. device: sd *acpa Maven: tabte, 

41 

42 int (*probe) (struct device *dev); 

23 int (*remove) (struct device *dev); 

44 void (*shutdown) (struct device *dev); 

45 Imc (Suspend): “(suruct device “dev. PM- Message... “Svare), 
46 int (*resume) (struct device *dev); 

4] CONSU Somer ALCIDE group *505OBUDS. 

48 

49 CONSE SULucek Gev pm OPS pm; 

50 

Sal SIIUCL driver Privato ”0 

52. TF 

53 

54 struct device { 

55 struct device *parent; 

56 

SIISLDPHOLDddevrloe Private "pe 

58 

O9 struct kobject.Jkobj; 

o0 const char *init name; /* initial name of the device */ 
oJ QORSUC SUCPIOL-device.type "type; 

62 

63 struct mutex mutex?/^ mutex LO Synchronize oalls to 

64 * its driver. 

65 "y 

66 

oX Struct bus type + Dus? |* type- Of bus device aus’ om */ 
OO SU ruck, device Criver SUPINE /* which driver has allocated this 
69 device y 

TO” FOL spotr Orm- Caos /* Platform specific data, device 
ell Core doesn’ ©: touch Xt *y 


I2 SUrüuct dev pm zinfopower; 

to Struct dev pm domain*pm domain; 
74 

1b $srlfdef CONTIG PINCTRL 

TO SELUCE dev prm nro Dcus; 


77 +#endif 

T9 

79 #ifdef CONfiG NUMA 

OD We numa node; /* NUMA node this device is close to */ 
81 #endif 

82 u64 *dma mask; /* dma mask (if dma'able device) */ 
83 u64 coherent dma mask;/* Like dma mask, but for 

84 alloc coherent: Mappings -as 

85 not all hardware supports 

86 64 bit addresses for consistent 

87 allocations such descriptors. */ 

88 

59 Struct device dha parameters dma Parme, 

90 

91 struct list head dma pools; /* dma pools (if dma'ble) */ 

92 

95 Struce. dma coherent mem *dma mem; /* internal for coherent mem 
94 override */ 

95 #ifdef CONfiG DMA CMA 

96 SCLUCL. CMa. Sema area; /* contiguous memory area for dma 
97 allocations */ 

98 #endif 


99: 4" arch Specific additions *y 
LUO Struct dev archdataarchdaua; 


EOT 

102 Struct device node POL. mode; /* associated device tree node */ 
LOS: SELUCL acpri dev node acpi node; /* associated ACPI device node */ 
104 

105 dev t devt; /* dev t, creates the sysfs "dev" */ 
TOG- 70:92 id; [7 device instance */ 

PIT 

LOG Spin lock. t devres look; 

L09 Seruer lus head devres. Nead; 

110 

Ti Servet, Kirst. node knode. (class; 

112 eee class *elass; 

115 CODSUISDLFIUCE oltre Group **9r90ps; L* optional groups. */ 

114 


ll» vord(^release) (Struct: device "*"dev);s 
llo struct rommu group *iommu group; 


117 


118 boo Ofllrne disabled; 
119 boo offline:1; 
120 je 


device driver 和 device 分 别 表 示 张 动 和 设备 ， 而 这 两 者 都 必须 依附 于 一 种 总 线 ， 因 此 都 包 侣 struct 
bus_type 指 针 。 在 Linux 内 核 中 ， 设 备 和 驱动 是 分 开 注册 的 ， 注 册 1 个 设备 的 时 候 ， 并 不 需要 驱动 已 经 存 
在 ， 而 1 个 驱动 被 注册 的 时 候 ， 也 不 需要 对 应 的 设备 已 经 被 注册 。 设 备 和 驱动 各 自 涌 向 内 核 ， 而 每 个 设备 
和 张 动 涌 入 内 核 的 时 候 ， 都 会 去 寻找 自己 的 另 一 半 ， 而 正 是 pus_type 的 match〈) 成 员 函 数 将 两 者 捆绑 在 一 
起 。 简 单 地 说 ， 设 备 和 驱动 就 是 红尘 中 漂浮 的 男女 ， 而 bus type 的 match O 则 是 牵引 红线 的 月 老 ， 它 可 以 
识别 什么 设备 与 什么 驱动 是 可 配对 的 。 一 旦 配对 成 功 ，xxx _ driver 的 probe O WERT (xxx 是 总 线 名 ， 


如 platform、pci、i2c、spi、usb 等 ) 。 


TER: 忌 线 、 驱 动 和 设备 最 终 部 会 洛 实 为 sys 人 fs 中 的 1 个 目录 ， 因 为 进一步 追踪 代码 会 有 发现， 它们 实际 
上 都 可 以 认为 是 kobject 的 派生 类 ，kobject 可 看 作 是 所 有 忌 线 、 设 备 和 驱动 的 抽象 基 类 ，1 个 kobject 对 应 
sysfs IJ LAS Hae 


Mn VS IRI A attribute l] HRK Asysis PAIS SCTE, attributes FER show O 和 
store O 这 两 个 函数 ， 分 别 用 于 读 写 该 attribute 对 应 的 sys 人 文件， 代码 清 蛙 5.8 给 出 J attribute. 


bus attribute. driver attribute#lldevice attribute 这 几 个 结构 体 的 定义 。 


代码 清单 5.8_ attribute. bus attribute. driver attribute 和 device attribute 结 构 体 


L Struct attribute i| 
2 const char *name; 
3 umode t mode; 
4 #ifdef CONfiG DEBUG LOCK ALLOC 
S bool Ignore loockdeptrl 
6 struct lock class key *key; 
J struct Lock Class key skey; 
8 #endif 
9 FF 
LU 
LL Serue. DUS acerabuce: { 
12 struct attribute attr; 
1 oplze C oo (Soc Dus type “bus, char "Dury 
14 Size L (*SLODe)TSLEHueuo bus type “bus, Cons: Chadar *DUL, Size D counc); 
Lo ps 
16 
Lf SUrUcUt driver abrrabuce: 4 
18 struct attribute attr; 
19 osie p (fonon) (Struct device driver “driver, char “bul); 
20 Seize. © ("O LOrE] (S TUC Cevice Craver. “driver; Cons: Cher “bur, 
21 size T Count)? 
Z2. jF 
23 
24 TO device attrrxbute | 
25 Struct attribute attr; 
26 Seize C (* show) (Struct. device “dev, Struce device a rlr ribus allr, 
Z1 clar DHL 
28 Ssize Lb (S3 Ore) (9L UOC device dev. SurucL device attribute “acti, 
29 const Char “bul, Size © COUNT)? 
30 } 


事实 上 ，sysfs 中 的 日 录 来 源 于 bus type. device driver、device， 而 目录 中 的 文件 则 来 源 于 attribute。 
Linux 内 核 中 也 定义 了 一 些 快捷 方式 以 方便 attribute 的 创建 工作 。 


#define DRIVER ATTR( name, mode, show, store) \ 


struct driver attribute driver attr rr name = , ATTR( name, mode, ‘show, ssvore) 
#define DRIVER ATTR RW( name) \ 
struct driver attribute driver atti TT name -—...ATTIE RW mame) 
#define DRIVER ATTR RO( name) \ 
struct driver attribute driver attr ## name =  ATTR RO( name) 
define DRIVER ATTR WO( name) \ 
struct driver attribute driver attr tł name = . ATTR WO( name) 
#define DRIVER ATTR( name, mode, show, store) \ 
struct driver attribute driver attr tt name = ATIRO Dame, mode, show, Store) 
#define DRIVER ATTR RW( name) \ 
struct driver attribute driver attr ## name =  ATTR RW( name) 
#define DRIVER ATTR RO( name) \ 
struct driver attribute driver attr. tk name = _ -ATTR RO( name) 
#define DRIVER ATTR WO( name) \ 
struct driver attribute driver attr vr name = . ATTR WO( name) 
#define BUS ATTR( name, mode, show, store) N 
Struct bus attribute bus attr *rv name — . ATTB( name, mode, show, store) 
#define BUS ATTR RW( name) ^ 
struct bus attribute bus attr ## name = . ATTR RW( name) 
#define BUS ATTR RO( name) ^ 
struct Dus attribute bus.qttr r name = ATTR.RBO( name) 


比如 ， 我 们 在 drivers/base/bus.c 文 件 中 可 以 找到 这 样 的 代码 : 


StatLre BUS ALT R(Grivers probe; .IWVUSR;: TULL Store drivers probe 
Static. BUS ATIR(dr:svers duLoprobe, S IWUSE || S IRBUGO, 

show drivers aubtoprobe,. Store drivers. autoprobe); 
Static BUS. ATIR(uevent, S IWUSR, NUL, bus. uevent store); 


而 在 /sys/bus/platform 等 里 面 束 可 以 找到 对 应 的 文件 : 


barry@barry-VirtualBox:/sys/bus/platforms ls 
devices “Grivers. “drivers: qutoprobe- “drivers: probe. "eventu 


RNS es 5.9 EA] AAAS n] Da JE sysfs, 3E Adumpth RRA. WR AKA fri A e 


代码 清单 $5.9” 通 历 sysf 


1 #!/bin/bash 
2 
3 # Populate block devices 
4 
5 for a: zm yssvs/block/*rdev 7sys/ block/*/*/dev 
6 do 
7 TX GL spo ae 
8 then 
9 MAJIOR=S°(seqd: ts. ^Y x91) 
10 MINOR=S (sed 's/.*://*' < $1) 
11 DEVNAME-$ (echo $i | sed -e 's@/dev@@' -e 's@.*/@@') 
L2 echo /dev/SDEVNAME b SMAJOR SMINOR 
13 #mknod /dev/SDEVNAME b SMAJOR SMINOR 
14 EE 
Re done 
16 
Ly # Populate char devices 
18 
19 for X im SSys/bus/*/devices;*7dev /sys/class/ */*/dev 
20 do 
2 pu. JE ve ud 
22 then 
25 MAJOR=S (sec) Tora n/T x51) 
24 MINORSS (Sed Tsar" ug) 
25 DEVNAME-$ (echo $i | sed -e 's@/dev@@' -e 's@.*/@@') 
26 echo /dev/SDEVNAME c $MAJOR SMINOR 
27 #mknod /dev/SDEVNAME c $MAJOR SMINOR 
28 End 
29 done 


上 述 脚本 通 历 sys， 找 出 所 有 的 设备 ， 并 分 析出 来 设备 名 和 主 次 设备 亏 。 如 朱 我 们 把 27 行 前 的 '##" 去 


挥 ， 访 脚本 实际 上 还 可 以 为 整个 系统 中 的 设备 建 并 /dev/ 下 面 的 市 反 。 


5.4.3 udev 的 组 成 


udev 目 前 和 systemd 项 目 合并 在 一 起 了 ， 见 位 于 https://lwn.net/Articles/490413/ 的 文档 《Udev and systemd 
to merge》， 可 以 从 http:Wcgit.freedesktop.oreg/systemd/、https:Wgithub.comysystemd/systemd 等 位 置 下 载 最 新 的 
代 仔 。udev 在 用 户 衬 间 中 执行 ， 动 态 建立 /删除 设备 文件 ， 人 允许 每 个 人 都 不 用 关心 主 /次 设备 气 而 提供 
LSB 〈Linux 标 准 规范 ，Linux Standard Base) 名 称 ， 并 且 可 以 根据 需要 固定 名 称 。udev 的 工作 过 程 如 下 。 


1〉 当 内 核 检 测 到 系统 中 出 现 了 狐 设 备 后 ， 内 核 会 通过 netlink 僚 接 字 发 这 uevent。 


2) udev 获 取 内 核发 送 的 信息 ， 进 行规 则 的 匹配 。 匹 配 的 事物 包括 SUBSYSTEM、ACTION、 
atttribute、 内 核 提 供 的 名 称 〈 通 过 KERNEL=) 以 及 其 他 的 环境 变量 。 


假设 在 Linux 系 统 上 插入 一 个 Kingston 的 U 检 ,我们 可 以 通过 udev 的 工具 “devadm monitor--kernel-- 


property--udev3iti 3k 2) 的 uevent 包 含 的 信息 : 


UDEV [6328.797974] add 

/devices/por0000:0070000:500$20D.0/7u8Sbl/1-1/1-1:1.0/ho08t/]/t&rget/7:0$30/7:90:0:0/block/sdo (block) 

ACTION=add 

DEVLINKS-/dev/disk/by-id/usb-Kingston DataTraveler 2.0 5B8212000047-0:0 /dev/ 
disk/bye-path/pci-0000:00:0D.0-usb-0:121.0-5081-0£2050:0 

DEVNAME=/dev/sdc 

DEVPATH-/devices/po10000:00/0000:00:0bD,0/u085Dl/l-91/11:1.0/ho0St//target/:020/7:0:20107 
block/sdc 

DEVTYPE=disk 

ID BUS-usb 

ID TNSTANCESU:U0 

LD. MODEL-Dararraveler 2.0 

ID MODEL ENC=DataTraveler\x202.0 

ID MODEL ID=6545 

ID PART TABLE TYPE=dos 

LD PATH-por900UO0SDUTÜOD.D-usbD-o021:T.095095390£:05070 

ID PATH TAG-pci-0000 00 Ob 0-usb-0 1 1 0-scsi-0 00 0 

LD REVISIONSPMAE 

ID SERIAL-Kingston DataTraveler 2.0 5B8212000047-0:0 

ID SERIAL SHORT-5B8212000047 

ID TYPE-disk 

LD.USB.DRIVER-USDe-SPtOrPage 

ID USB INTERFACES-:080650: 

ID USB INTERFACE NUM-00 

ID VENDOR-Kingston 

ID VENDOR ENC-Kingston 

ID VENDOR ID=0930 

MAJOR=8 

MINOR=32 

SEQNUM=2 335 

SUBSYSTEM=block 


我 们 可 以 根据 这 些 信息 ， 创 建 一 个 规则 ， 以 便 每 次 捅 入 的 时 候 ， 为 议 盘 创建 一 个 /devwkingstonUD 的 符 
号 链 拨 ， 这 个 规则 可 以 与 成 代码 清 单 5.10 的 样子 。 


代 但 清单 $5.10 ”设备 命名 规则 范例 


# Kingston USB mass storage 
oGUBSOYSIBM--"DIocKk", ACTION=="ad0 7, KERNEL==""sd M; ENVILD TIPEJ-S"' QLSE",; 
ENViID. VENDOR;—--"KRingston", ENVIID.USB DRIVERj--"usb-storage", SYMLBINKT-"KkingstonUD" 


Jti kingston U 航 后 ，/dev/ 会 目 动 创建 一 个 符号 链接 : 


root@barry-VirtualBox:/dev# ls =l. kingstonUD 
lxworrwXIWX Lh WOQU- 2005-9 “dul, SO" 3593131 JeITIgStonlD: sc Sde 





5.4.4 udev 规则 文件 


udev 的 规则 文件 以 行为 单位 ， 以 ' 营 :开头 的 行 代表 注释 行 。 其 余 的 每 一 行 代 表 一 个 规则 。 每 个 规则 分 
成 一 个 或 多 个 匹配 部 分 和 赋值 部 分 。 匹 配 部 分 用 匹配 专用 的 关键 字 来 表示 ， 相 应 的 赋值 部 分 用 赋值 专用 的 
关键 字 来 表示 。 匹 配 关键 字 包 括 : ACTION (行为 ) KERNEL “〈 匹 配 内 核 设备 名 ) 、BUS MMAR% 
型 ) . SUBSYSTEM 〈 匹 配子 系统 名 ) 、ATTR〔 属 性) 等 ， 赋 值 关 键 字 包 括 : NAME (创建 的 设备 文件 
4) . SYMLINK (符号 创建 链接 名 ) . OWNER. (设置 设备 的 所 有 者 ) ~ GROUP (设置 设备 的 组 ) 、 
IMPORT “〈 调 用 外 部 程序 ) MODE (节点 访问 权限 ) S. 


例如 ， 如 下 规则 : 


SUBSYSTEM--"net", ACTION--"add", DRIVERS--" *", ATTR{address }=="08:00:27:35:be:ff", 
ATITRIdev 1dj5e"Ox0", ATTR{type}=="1", KERNEL=="eth*", NAME-"ethl" 


其 中 的 "匹配 ?部 分 


分 包括 SUBSYSTEM、ACTION、AITR、KERNEL 等 ， 而 “赋值 ”部 分 有 一 项 ， 是 
NAME。 这 个 规则 的 意思 


fe: 当 系 统 中 出 现 的 新 便 件 属于 net 子 系统 范 畴 ， 系 统 对 该 便 件 采取 的 动作 
是 “add” 这 个 便 件 ， 且 这 个 便 件 的 “address” 属 性 信息 等 于 “08: 00: 27: 35: be: ff’, "dev id” 属性 等 
于 “0x0”“type" 属 性 为 1 等 ， 此 时 ， 对 这 个 便 件 在 udev 层 次 施行 的 动作 是 创建 /deweth1l 。 


通过 一 个 简单 的 例子 可 以 看 出 udev 和 devfs 在 命名 方面 的 差异 。 如 果 系 统 中 有 两 个 USB 打 印 机 ， 一 个 可 
能 被 称 为 /dewusb/lp0， 另 外 一 个 便 是 /devwusb/ip1。 但 是 到 底 哪个 文件 对 应 哪个 打印 机 是 无 法 确定 的 ， 
Ip0、lp1 和 实际 的 设备 没有 一 一 对 应 的 关系 ， 了 映射 关系 会 因 设 备 发 现 的 顺序 、 打 印 机 本 屿 关闭 等 而 不 确 
定 。 因 此 ， 理 想 的 方式 是 两 个 打印 机 应 该 采用 基于 它们 的 序列 号 或 者 其 他 标识 信息 的 办 法 来 进行 确定 的 映 
射 ，devfs 无 法 做 到 这 一 点 ，udev 却 可 以 做 到 。 使 用 如 下 规则 : 


SUBSYSTEM="usb",ATTR{serial}="HXOLL0012202323480",NAME="]p epson", SYMLINK+="printers/ 
epson stylus" 


该 规则 中 的 匹配 项 目 有 有 SUBSYSTEM 和 ATTR， 赋 值 项 目 为 NAME 和 SYMLINK， 它 意味 看 当 一 台 USB 
打印 机 的 序列 与 为 “HXOLL0012202323480” 时 ， 创 建 /dev/lp_epson 文 件 ， 并 同时 创建 一 个 符号 链 
接 /dev/printers/epson styles。 序 列 号 为 ‘HXOLL0012202323480” 的 USB 打 印 机 不 管 何 时 被 插入 ， 对 应 的 设 
备 名 都 是 /dewlp epson， 而 devfs 显 然 无 法 实现 设备 的 这 种 国定 命名 。 


udev 规 则 的 写法 非常 灵活 ， 在 匹配 部 分 ， 可 以 通过 “*”、“? ”_、[a~cl]、[1~9] 等 shell 通 配 符 来 灵活 匹配 
多 个 项 目 。*# 类 似 于 shell 中 的 * 通 配 符 ， 代 和 丛 任 意 长 度 的 任意 字符 串 ，? 代 礁 一 个 字符 。 此 外 ，%k 束 是 


KERNEL，%n 则 是 设备 的 KERNEL 序 号 (如 存储 设备 的 分 区 号 ) 。 


可 以 借助 udev 中 的 udevadm info 工 上 其 查找 规则 文件 能 利用 的 内 核 信 息 和 sysfs 属 性 信息 ， 如 运 


行 “udevadm info-a-p/sys/devices/platform/serial8250/tty/ttySO" mM T4 £3 F]: 


udevadm info -a =p /sys/devices/platform/serial8250/tty/ttySO0 
Udevadm info starts with the device specified by the devpath and then 
walks up the chain of parent devices. It prints for every device 
found, all possible attributes in the udev rules key format. 
A rule to match, can be composed by the attributes of the device 
and the attributes from one single parent device. 
looking at device '/devices/platform/serial8250/tty/ttyS0': 
KERNEL--"ttyS0" 
SUBSYSTEM=="tty" 
DRIVER=="" 
ATTR{irg}=="4" 
ATTR{line}=="0" 
AITTRIDOÉILI—--"OxSFEFO" 
ATTR{type}=="0" 
ATTR{flags }=="0x10000040" 
ATIR tomem- base };=="0x%0" 
ATIR GUS COM GLvisor ==" 0" 
ALIR ROMEM reg surftjeeg" 
ATTR{uartclk}=="1843200" 
ATIRI MLC ITO “sane yaa 
ATIBICLlOSe “delay e-' 20* 
ALIR OTOSI NG Wurtj-- 29007 
ATIRLO ype == "0" 
looking at parent device '/devices/platform/serial8250': 
KERNELS=="Serial8250" 
SUBSYSTEMS=="platform" 
DRIVERS=="Serial8250" 
looking at parent device '/^devrces/pletformt: 
KERNELS=="platform" 
SUBSYSTEMS=="" 
DRIVERS=="" 


QR /dev/ FMA Ho Aa Bet, (EAE RAE ET NLTJ/sys-H. MH Re, n] EACH] udevadm info-a- 
p$ Cudevadm info-q path-n/dev/« i R Z>) ”命令 反问 分 析 ， 比 如 : 


udevadm info =á =p S$(udevadm info -q path -n /dev/sdb) 
Udevadm info starts with the device specified by the devpath and then 
walks up the chain of parent devices. It prints for every device 
found, all possible attributes in the udev rules key format. 
A rule to match, can be composed by the attributes of the device 
and the attributes from one single parent device. 
looking at device '/devaices/poro000:00/0000:200$0.0/23ta4/hoSt3/target3:0:07/3:0:20:0/DbloCck7/sdb'«4 
KERNEL=="sdb" 
SUBSYSTEM=="block" 


DRIVER=="" 

ATTR{ro}=="0" 

ATTR{size}=="7/716922886" 

ATTR{stat }==" 584 1698 4669 7564 O 9 O 
O 9 7564 1964 


ATTR{range}=="16" 

ATIR ITeC rd alagnmen.’ p=="0" 

ATTR{events}=="" 

AIR eke Eange]-' 29907 

AIIRISVents poll MoCo SS T= 

ATTRi[iGILIgnment orfrset-"0" 

ATITRLITDILght]ee" O Dm 

ATTR(removable])--2"Q" 

ATTR{capability}=="50" 

ATIR EVENS asyncy;=="" 

looking at parent device '/devices/pci0000:00/0000:00:0d.0/ata4/host3/ 

bargersos0 7073702030": 

KERNELS=="3:0:0:0" 

SUBSYSTEMS=="scsi" 

DRIVERS=="sd" 

ATTRS{rev}=="1.0 " 

ATTRS {type }=="0" 

ATIBSTOCSI level "Ue" 

ATTRS {model }=="VBOX HARDDISK = 

ATTRS {state }=="running" 

ALTRO CUS: type == simple” 

ATTRO[rIOdone- cht p=="0x299" 

ATIIRBSIHIOrequest Cnt j=="0x79a" 

PTI Ro Queues Samp. up per roo }==" 120000" 

ATTRS {timeout } =="30" 

ATIRO (eve. medra changej--"0" 

BIDBOTqIOSEE ONESTO" 

ALTR Queue. depth) 30" 


ATTRS {vendor }=="ATA i 
ATIR (devICe DIGOkedj==sTo™ 
ATTRS{iocounterbits }=="32" 
looking at parent device '/devices/pci0000:00/0000:00:0d.0/ata4/host3/ 
target3:0:0': 
KERNELS=="target3:0:0" 
SUBSYSTEMS--"scsi" 
DRILIVERSSe"T" 
looking at parent device '/devices/pci0000:00/0000:00:0d.0/ata4/host3': 
KERNELS=="host3" 
SUBSYSTEMS=="scsi" 
DRIVERS 
looking at parent device '/devices/pci0000:00/0000:00:0d.0/ata4': 
KERNELS=="ata4" 
SUBS Yo LEMS=—"" 
DRIVERS=="" 
LOOKING ab parent device tldgéwvices)pcr0000900/0000*00509.40*2 
KERNELS=="0000:00:0d.0" 
SUBSYSTEMS=="pci" 
DRIVERS--"ahci" 
ATTRS[(irqj)--"2]" 
ATI Ret subsystem vendor)--"O0x0000" 
ATTRot broken, parity statusj--"0" 
ATTRS {class }=="0x010601" 
ATIRS4 CONSLSvent dma mask. brts}=="04" 
ATTRS{dma_ mask bits}=="64" 
ALT ROT LOCal Cous;= >" Bi" 
ATTRS {device }=="0x2829" 
ATTRS {enable }=="1" 
ATIR MoI Dus pas 
ATR. JOCA. CHULI CSES 
ATTRS {vendor }=="0x8086" 
ATIRG tsubsyscvem. device|--"0x0000* 
ATIR Gold- allowed Ssu] 
hooking at parent device. */Gdéevices/ pci 0000300": 
KERNELS=="pci0000:00" 
SUBS Ys TEMS=="" 
DREVERS=="" 


TEN AH, Ea UL Hudevif] #2 Ahk Amdev, mdevf& EV, busybox F. fESRYEbusyboxH AY [ix , 
选中 mdev 相 关 项 目 即 可 。 


Android 也 没有 米 用 udev， 它 采用 的 是 vold。vold 的 机 制 和 udev 是 一 样 的 ， 理 解 了 了 udev， 也 束 理 解 了 
vold。Android 的 源 代 码 NetlinkManagercpp 同 样 是 监听 基于 netlink 的 三 接 字 ， 并 解析 收 到 的 消息 。 


Linux 用 户 衬 间 的 文件 编程 有 两 种 方法 ， 即 通过 Linux APDRDBI 闲 数 访问 文件 。 用 户 空 间 看 不 到 
设备 驱动 ， 能 看 到 的 只 有 与 设备 对 应 的 文件 ， 因 此 文件 编程 也 就 是 用 户 空 间 的 设备 编程 。 


Linux 按 照 功能 对 文件 系统 的 目录 结构 进行 了 展 好 的 规划 。/dev 是 设备 文件 的 存放 目录 ，devfS 和 udev 分 
Al Linux 2.4 和 Linux 2.6 以 后 的 内 核 生 成 设备 文件 节点 的 方法 ， 前 者 运行 于 内 核 空 间 ， 后 者 运行 于 用 户 空 
EIR 


Linux 2.6 Ja If] P3 2038813. RI AAEN S RRR, WARE E sysfs CF R RP HI H RACE 
存在 一 种 对 应 天 系 。 设 备 和 张 动 分 离 ， 并 通过 总 线 进 行 匹配 。 


udev 可 以 利用 内 核 通 过 netlink 发 出 的 uevent 信 息 动 态 创建 设备 文件 节操 。 


BOR FFT BC ae UNA 
本 章 导读 


在 整个 Linux 设 备 驱 动 的 学 习 中 ， 字 符 设备 驱动 较为 基础 。 本 章 将 讲解 Linux 字 符 设备 驱动 程序 的 结 
构 ， 并 解释 其 主要 组 成 部 分 的 编程 方法 。 


6.1 节 讲解 了 Linux 字 符 设备 驱动 的 关键 数据 结构 cdev 及 file _ operations 结 构 体 的 操作 方法 ， 并 分 析 了 
Linux 字 从 设备 的 整体 结构 ， 给 出 了 简单 的 设计 模板 。 


6.2 节 描述 了 本 章 及 后 续 各 音节 所 基于 的 globalmem 虚 拟 字符 设备 ， 第 6~9 章 都 将 基于 该 虚拟 设备 实例 
进行 字符 设备 驱动 及 并 发 控制 等 知识 的 讲解 。 


6.3 市 依据 6.1 市 的 知识 讲解 globalmem 的 设备 驱动 编写 方法 ， 对 读 写 函数 、seek() KIOJ H A žr 
等 进行 了 重点 分 析 。 访 节 的 最 后 也 讲解 了 Linux 驱 动 编程 “私有 数据 ”的 用 法 。 


6.4 节 给 出 了 6.3 节 的 globalmem 设 备 驱 动 在 用 户 空间 的 验证 。 


6.1 Linux E ix Ko Zi d 


6.1.1 cdev 结 构 体 


在 Linux 内 核 中 ， 使 用 cdev 结 构 体 手 述 一 个 字符 设备 ，cdev 绍 构 体 的 定义 如 代码 消 蛙 6.1。 


代码 清单 6.1 cdev 结 构 体 


struct. odev 1 


Unsigned int Counc; 


Ye 
Ne 


2 struct kobject kobj; [^ 
3 struct module *owner; "Ru 
4. Struct file operations “Ops; Jes 
oO struct dioi head Lise; 

6 dev t dev; fo 3 
7 

8 


Wikü)kobject*w$€ */ 
所 属 模 块 * / 
文件 操作 结构 体 */ 


cdev 结 构 体 的 dev_t 成 员 定 义 了 设备 写 ， 为 32 位 ， 其 中 12 位 为 主 设备 写 ，20 位 为 次 设备 写 。 使 用 下 列 


宏 可 以 从 dev t 获 得 主 设备 志和 次 设备 气 : 


MAJOR {dev t dev) 
MINOR {dev t dev) 


IEH P ZZ WU n] DA Ec e^ RX m kidev t: 


MKDEV (int major, int minor) 


cdev 结 构 体 的 另 一 个 重要 成 员 file operations 定 义 了 字符 设备 驱动 提供 给 虚拟 文件 系统 的 接口 函数 。 


Linux 内 核 提 供 了 一 组 水 数 以 用 于 操作 cdev 结 构 体 : 


vorid COSY NE 


Struct cdev *cdev e2lloe(void);7 
void cdev Dub (Struct Qdev *p)7 


int "COSY addilstrucc. cdey * dev t, unsigned); 


void dev delen Caer vir 


cdev init © PA ZH] TW] ceden, FÆ cedevýlfile operations 之 间 的 连接 ， 其 源 代 码 如 代码 


清单 6.2 所 示 。 


代码 清单 6.2 cdev init O 函数 


lvold ocdev ane (Struct cdév *cdev, struct iile operations *rLops) 


Zu 

3 memset (cdev, 0, sizeof *cdev); 

4 INIT LIST HEAD (&cdev->list); 

5 kobject init(&cdev->kobj, &ktype cdev default); 

6 cdev-»ops = fops; /* 将 传 入 的 文件 操作 结构 体 指针 赋值 给 cdev 的 ops*/ 


Lj 


cdev alloc () 水 数 用 于 动态 申请 一 个 cdev 内 存 ， 其 源 代 码 如 代码 清早 6.3 所 示 。 
代码 清单 6.3 cdev alloc〈) 函数 


Struct, cdev-*odev alloc(Qvord) 
Za 


3 Struce cdev ~p = szalloc(silzeort(Struec to GEP KERNEL); 
4 Lf Xp 

5 INIT LIST HEAD(&p-»list); 

6 kobyect nrctepekobI, &ktype cdev dynamic); 

7 } 

8 return p; 

2g 


cdev add © PAZ ledev del O 函数 分 别 问 系统 添加 和 删除 一 个 cdev， 完 成 字符 设备 的 注册 和 注 
销 。 对 cdev add O 的 调用 通 第 用 生 在 字符 设备 张 动 梗 块 加 载 图 数 中 ， 而 对 cdev_ del O 函数 的 调用 则 通 
T Bt ETE TIT AC Pe DJ EY) E | BL o 


6.1.2 ”分配 和 释放 设备 号 


在 调用 cdev add O 郴 数 回 系 统 注 册 字 符 设 备 之 前 ， 应 首先 调用 register chrdev region O 或 
alloc chrdev region O MAH Z& ic Hi se Ss, RPS RA A: 
Int. Peorscer chrdev regron(dev —- from, unsigned count. Conse char *name); 


int alloc chrdev regron(dev t *dev, unsigned baseminor, unsigned count, 
const char *name); 


register chrdev region O MACHT C ATE Ag vc HP) KA m JT US. Tfjalloc chrdev region O HF 
A ARAM. MARRS S BA HB BIOL. RIAA RI ZS, BGR NRE SBA TS 
参数 dev 中 。alloc chrdev region (© 相 比 于 register chrdev region O 的 优点 在 于 它 会 自动 避 开 设备 号 重复 
的 冲突 。 


相应 地 ， 在 调用 cdev_ del O 函数 从 系统 注销 字符 设备 之 后 ，unregister_chrdev_ region〈) 应 该 航 调用 
以 释放 原先 申请 的 设备 号 ， 这 个 函数 的 原型 为 : 


void unregister chrdev region(dev t from, unsigned count); 


6.1.3 file operations 结 构 体 


file_operations 结 构 体 中 的 成 员 函 数 是 字符 设备 驱动 程序 设计 的 主体 内 容 ， 这 些 函 数 实际 会 在 应 用 程序 
进行 Linux 的 open ©) ~ write © 、read ©) 、close O 等 系统 调用 时 最 终 被 内 核 调用 。file operations 结 构 
体 目 前 已 经 比较 庞大 ， 它 的 定义 如 代码 清单 6.4 所 示 。 


代码 清单 6.4 file operations 结 构 体 


LStruct. file operations. | 


2 struct module “owner; 

sc dott © {FLL Geek) (SLEUCL tile ~; loff Ty 2c) se 

4 69120 o (read) (Struce file 5, char Ser. ^. size tc, 101r T ~j; 

5. Size L ("N LLS) (struct file ^, Conse Char . user *, size ty, LORI C 9); 

6 88126 °C (alo read) (Struct, Ki00D *, Const SCrucc zovec ~; unsigned Long; Locf t); 
+ #6176 L (alo Vr le) (Seo. RIOCD '*..00n8t Struct 26vec ^, Unsigned long, LOI t); 
D» ant (Iter te) (SL UCL file 5. Seruce Cit DOULOXt ^93 

2- Aansrgned mt (*poll) TSLPIUDL tile ^, serucr poll. table Struct ^y 

LU. Jong (unlocked 10C0bl) (Struct. Tile $5, ungexgned anc, SDnelgheo Long); 

ll long ("compal toci; (struct fide *, unsigned int, Unsigned Long); 

l2 ant Cup) (struct tule "v Struct vnm area Struct. ~j} 

13 Nt (*open) (struct. inode *, Struct tile *); 

14. ane (^Llush) (struct fale *, IL owner C 1d); 

15 ant (*release) (struct anode *, struct file *); 

Lo ant («LSVIO) PSUCUOD fale ~; Loli ty torr ty, Int OSBCcSSyIOY 

1^ aie (falo L5yuc) (Strae ETXOGD ^, ant datasyic); 

Lo int (*Tasync) (int; Struct file *, int); 

iD ant 199b (seruct tide "5 at, Struct rile lock 59r 
2) Size L i'*senüupace) (arruct file ~; Struc. page 7 Ib, Size Ty LOIL © *, anc); 


Zl unsigned Long (“get unmapped area) (Struct rile ^, unsigned long, unsigned long; 
unsigned long, unsigned long); 
24. ant (*check flags) (int); 
Zo dame ("LL00R) (Strucb tile 5, tie, Seruc. tile tock "JV 
24 85126 L (*Splice Write) (Struct. pipe anode Iio ^. Struct tile: ^, loll © ~; S126. L1, Unsigned LNL)? 
29 SEIZE L ("SpLIOe read) (otruce tale ^. LOLL E ". Struce pape N00s 158.0 ^. Give Lb, Unsigned anc); 
20 ane \*serlease) (Struct file ~, long, Strucut file Jock **); 
24 döng A tallocace) (struct: Tide *í11L6, ane modey JOLT © O0OLLSeLb5, 


28 toii © Len 
2.29. XXE "D*SsHow IOInblo)TStruct Seq TIIe “mm S6ruct Ille *D5 5 
30r 


下 面 我 们 对 file operations 结 构 体 中 的 主要 成 员 进 行 分 析 。 


llseek O 国 数 用 来 修改 一 个 文件 的 当前 读 与 位 置 ， 并 将 新 位 置 返 回 ， 在 出 错时 ， 这 个 函数 返回 一 -1 
SUE 


read O PRU SA e PIA, BODY ERG BRI a, CN el T f Bs E SH 
PEMA HP WY ssize tread Cint fd, void*buf, size t count) 和 和 size t fread (void*ptr, size t size; 


size tnmemb, FILE*stream) 对 心 。 


write O PRAIA UE AIKEN, TAIN VA PRI [Al A ETB. WR EE PRIOR SEM, SA T 
write ©) 系统 调用 时 ， 将 得 到 -EINVAL 返 回 值 。 它 与 用 户 衬 间 应 用 程序 中 的 ssize t write Gnt fd, const 


void*buf, size t count) 和 Size t fwrite (const void*ptr, size t size, size tnmemb, FILE*stream) 对 心 。 


read () 和 write © 如 果 返 回 0， 则 上 蜡 示 end-offile (EOF) 。 


unlocked_ioctl O 提供 设备 相关 控制 命令 的 实现 《〈 既 不 是 该 操作 ， 也 不 是 写 操 作 ) ， 当 调用 成 功 时 ， 
返回 给 调用 程序 一 个 非 负 值 。 它 与 用 户 空 间 应 用 程序 调用 的 int fentl Cint fd, int cmd, .../*arg*/) Mint 
ioctl Cintd, int request, ...) 对 应 。 


mmap O 函数 将 设备 内 存 映 射 到 进程 的 虚拟 地 址 空间 中 ， 如 果 设 备 驱 动 未 实现 此 函数 ， 用 户 进 行 
mmap ©) 系统 调用 时 将 获得 -ENODEV 返 回 值 。 这 个 函数 对 于 帧 缓冲 等 设备 特别 有 意义 ， 帧 缓冲 被 映射 到 
用 户 空 间 后 ， 应 用 程序 可 以 直接 访问 它 而 无 须 在 内 核 和 应 用 间 进 行内 存 复 制 。 它 与 用 户 空 间 应 用 程序 中 的 
void*mmap (void*addr, size tlength, int prot, int flags, int fd, off t offset) 函数 对 应 。 


AH P ERRARE Linux APIA open O 打开 设备 文件 时 ， 设 备 驱 动 的 open〈) 函数 最 终 航 调用 。 驱 动 
程序 可 以 不 实现 这 个 函数 ， 在 这 种 情况 下 ， 设 备 的 打开 操作 永远 成 功 。 与 open O 函数 对 应 的 是 


release () pea. 


poll O PEZ — RN H]-T- 8l HEA xe 48 A E AEBH SER BUT. SSR TEAR AA, FA E BEIT 
select () 和 poll O AZ Val HET 5] HERE AY BASE 


aio read () 和 aio_ write CO PRA AIT SCPE TIA FF OT DV CR ET PP SERVE WC SIX 
PAS p BU, FP ele) ey B E Ves EIA AEST SYS io setup. SYS io submit. SYS io getevents. 
SYS io_destroy 等 系统 调用 进行 谈 与 。 


6.1.4 Linux f uc Up JI H E 

在 Linux 中 ， 字 和 从 设备 驱动 由 如 下 几 个 部 分 组 成 。 
1. 字 和 从 设备 驱 动 模块 加 载 与 锰 载 函数 

在 字符 设备 驱动 模块 加 载 水 数 中 应 该 实现 设备 号 的 申请 和 cdev 的 注册 ， 而 在 凶 载 冰 数 中 应 实现 设备 号 
的 释放 和 cdev 的 注销 。 

Linux 内 核 的 编码 习惯 是 为 设备 定义 一 个 设备 相关 的 结构 体 ， 该 结构 体 包 含 设备 所 涉及 的 cdev、 私 有 
数据 及 锁 等 信息 。 第 见 的 设备 结构 体 、 模 块 加 载 和 赦 载 函数 形式 如 代码 清单 6.$ 所 示 。 


代码 清单 6.3 FITERE KRR ER EN ER R RAN 


l/* 设备 结构 体 

ZSLEUOCL xxx dev | 

3 Struct cdeév cdev; 
4 

29] XXX dev; 

6/* 设备 驱动 模块 加 载 函 数 


ee 

8 { 

D^ x53 
10 cdev init(&xxx dev.cdev, &xxx fops); /* 初始 化 cdev */ 


11 xxx dev.cdev.owner = THIS MODULE; 
12 /* 获取 字符 设备 号 * / 
l9 ii (xxx major) 4 


14 register chrdev region(xxx dev no, 1, DEV NAME); 

L5 } else { 

16 alloc chrdev region(&xxx dev no, 0, 1, DEV NAME); 

17 } 

18 

19 ret = cdev add(&xxx dev.cdev, xxx dev no, 1); /* 注册 设备 */ 
75, m 

21] 

22/* 设备 驱动 模块 卸载 函数 * / 

Z98LAatlO vöid exit xxx. 6x10 (void) 

24 { 

25 | unregister chrdev region(xxx dev no, 1); /* 释放 占用 的 设备 号 * / 
26 cdev del(&xxx dev.cdev); /* 注销 设备 */ 
27 

28} 


2. FFF KSI file operations 44 J AF AY EK va ER AY 


file operations 结 构 体 中 的 成 员 图 数 是 字符 设备 驱动 与 内 核 虚 拟 文 件 系 统 的 接口 ， 是 用 户 空 间 对 Linux 
进行 系统 调用 最 终 的 洲 实 者 。 大 多 数字 符 设 备 张 动 会 实现 read O . write © 和 ioctl O mat, FILA 
从 设备 驱动 的 这 3 个 函数 的 形式 如 代码 清单 6.6 所 示 。 


代码 清单 6.6 ”字符 设备 驱动 恋 、 写 、1O 控 制 函 数 模 板 


/* 读 设备 */ 

SEO 
Loft Tt*f pos) 

| 


COPY Do uUuSeriDUIF. Aaa eJ 


CO =] Oy Ol m CO NH P 


9 /* 写 设 备 */ 
LO: SSize © XXX Wrace(esrruce file “filp, conse Char User “bur, S126 © Counc, 
11 LOI © «rf Poe) 
12 4 


14 COPY From User mr DULy sas)? 
16 } 


17 /* 1oct1 函 数 */ 
1G: bong Xxx 1OCLI(etruce £116 *LLlp, unsigned 1nG cmd, 


19 unsigned long arg) 
20 1 

21 -— 

22 Switch (cmd) { 

23 Case XXX CMD 1.2 

24 es 

2 break; 

26 case XXX CMD2: 

21 as 

28 break; 

29 default: 

30 /* 不 能 支持 的 命令 */ 
Gai return = ENOTTY; 
32 } 

33 return 0; 

34 } 


We OER, fip LAAIE bube HP ZA ASO, Hee eA tl AS EC EE 
接 该 写 ，count 是 要 读 的 字 节 数 ，f poste he BAM T ERF AK o 


设备 驱动 的 瑟 函 数 中 ，filp 是 文件 结构 体 指 夺 ，buf 十 用 尸 空间 内 存 的 地 址 ， 该 地址 在 内 核 空间 不 宜 下 
接 读 写 ，count 是 要 写 的 字 节 数 ，f pos 是 写 的 位 置 相 对 于 文件 开头 的 偏 移 。 


由 于 用 户 空 间 不 能 和 耳 接 访问 内 核 空 间 的 内 存 ， 因 此 借助 了 疯 数 copy from user ©) SER HI 458] Zz vp 
区 到 内 核 空间 的 复制 ， 以 及 copy to user O 完成 内 核 空间 到 用 尸 空间 缓冲 区 的 复制 ， 见 代码 第 6 行 和 第 14 


fT. 
完成 内 核 空间 和 用 户 空 间 内 存 复 制 的 copy from user () 和 copy to user ©) 的 原型 分 别 为 : 
unsigned: long copy trom. user(vord “to const void user ^irom, unsigned long count); 
Unsigned Long Copy Lo userivold . user CO; Const vold.^rtrfom, unsigned dong count); 
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如 果 要 复制 的 内 存 是 简单 类型 ， 如 char、int、long 等 ， 则 可 以 使 用 傈 单 的 put user ©) 和 
get user () ， 如 : 





int val; /* 内 核 空 间 整 型 变量 
get_user(val, (int *) arg); /* 用 户 -内 核 ，azg 是 用 户 空间 的 地 址 */ 
put user{val; (AC ~=) argi; /* AK-HP, arg Mezh */ 


恋 和 瑟 函 数 中 的 _user 是 一 个 宏 ， 示 明 其 后 的 指针 指 回 用 户 空 间 ， 实 际 上 更 多 地 友 当 了 代码 目 注释 的 
功能 。 这 个 安定 义 为 : 


#ifdef CHECKER _ 


t define user _ Attribute ((noderef, address space(l))) 
#else 

# define user 

#endif 


内 核 空间 虽然 可 以 访问 用 户 空间 的 缓冲 区 ， 但 是 在 访问 之 前 ， 一 般 需 要 先 检查 其 合法 性 ， 通 过 
access ok (type，addr，size》 进 行 判 断 ， 以 确定 传 入 的 缓冲 区 的 确 属于 用 户 空间 ， 例 如 : 


Static 65176 © reod Porio ruci tule “file; Char —user “bur, 
Size C count, Port € *ppob) 
{ 
unsigned long 1 = *ppos; 
char user *tmp = buf; 
Lr (lactens OR(O/ERIEY WRITE, Dur; Counc) } 
return -EFAULT; 
while (count-- > 0 && 1 < 65536) | 
LE 4(- puc useri(rinoti);. tmp) € 9) 
return -EFAULT; 
itt; 
CMO 7 
} 
"Dpos = 1; 
return tmp-buf; 


上 述 代码 中 引用 的 _put user O 与 前 文 讲 解 的 put user O 的 区 别 在 于 前 者 不 进行 类 似 access ok © 
的 检查 ， 而 后 者 会 进行 这 一 检查 。 在 本 例 中 ， 不 使 用 put_user《〈) 而 使 用 _put user O HYJAL ££ 
. put user O 调用 之 前 ， 已 经 手动 检 枉 了 了 用户 空 间 缓冲 区 (buf 指 问 的 大 小 为 count 的 内 存 〉 的 合法 性 。 
get user () 和 ”get user © 的 区 别 也 相似 。 


特别 要 提醒 读者 注意 的 是 : 在 内 核 空 间 与 用 户 空间 的 界面 处 ， 内 核 检 查 用 户 空间 缓冲 区 的 合法 性 显得 
尤其 必要 ，Linux 内 核 的 许多 安全 漏洞 都 是 因为 遗忘 了 这 一 检查 造成 的 ， 非 法 侵入 者 可 以 伪造 一 片 内 核 空 
间 的 缓冲 区 地 址 传 入 系统 调用 的 接口 ， 让 内 核对 这 个 evil 指 针 指 向 的 内 核 空 间 填充 数据 。 有 兴趣 的 读者 可 
以 从 http://www.cvedetails.com/ 网 站 查阅 Linux CVE (Common Vulnerabilities and Exposures) 列表 。 


其 实 copy from user () ~ copy to user OO 内 部 也 进行 了 这 样 的 检查 : 


Static Inline unsigned long st check :copy Irom user(tvord “to; const youd USer 
*from, unsigned long n) 
{ 
Il (access Ok (VERIFY -READ, from, nij 
n —- copy from user(to, from, nm); 
else /* security hole = plug it */ 
memset(to, O, n); 
DLeTurn n? 
j 
Static inline unsigned long X must check copy Lo user(void . user “to, const void 
*from, unsigned long n) 
{ 
Il (access Ok (VERIEY WRITE, toy n) 
i= -gopy to üseri(to, from, n); 
return ny 


IO 控制 函数 的 cmd 参 数 为 事先 定义 的 IO 控制 命令 ， 而 arg 为 对 应 于 该 命令 的 参数 。 例 如 对 于 串 行 设 
备 ， 如 果 SET BAUDRATE 是 一 道 设 置 流 特 率 的 命令 ， 那 后 面 的 arg 怠 应 该 是 波 特 率 值 。 


在 字符 设备 驱动 中 ， 需 要 定义 一 个 fle operations 的 实例 ， 并 将 具体 设备 驱动 的 函数 赋值 给 
file operations 的 成 员 ， 如 代码 清单 6.7 所 示 。 


代 但 请 单 6.7 字符 设备 驱动 文件 操作 结构 体 柑 板 


lstruüct file operations Xxx tops = { 
2 .owner = THIS MODULE, 

3 Toad = Xx read, 

4 .write = xxx write, 

S JUnlbocked JX0€6Ltl-9 Xxx LOOLL 

6 

7); 


Exxx fops 在 代码 清单 6.$ 第 10 行 的 cdev_ init C&xxx dev.cdev, &xxx fops) 的 语句 中 建立 与 cdev 的 连 
接 。 
图 6.1 所 示 为 字符 设备 驱动 的 结构 、 字 符 设 备 驱 动 与 字符 说 备 以 及 字符 设备 驱动 与 用 户 空 间 访问 该 设 


备 的 程序 乙 间 的 关系 。 


~~ E 用 户 空间 
| x LANs pia | 
| /Ng $) FREE ANAK PHL - 
| | 
| My pg. | Linux 系统 调用 
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图 6.1 字符 设备 驱动 的 结构 


6.2 globalmem iz 10 Ve $& SEA] TIS 3A 


从 本 章 开 始 ， 后 续 的 数 章 都 将 基于 虚拟 的 globalmem 设 备 进行 字符 设备 驱动 的 讲解 。globalmem 意 味 
着 “全 局 内 存 ”， 在 globalmem 字 符 设 备 驱 动 中 会 分 配 一 片 大 小 为 GLOBALMEM SIZE (4KB) 的 内 存 空 
间 ， 并 在 驱动 中 提供 针对 该 片 内 存 的 读 写 、 控 制 和 定位 函数 ， 以 供用 户 空间 的 进程 能 通过 Linux 系 统 调用 
获取 或 设置 这 片 内 存 的 内 容 。 


实际 上 ， 这 个 虚拟 的 globalmem 设 备 几乎 没有 任何 实用 价值 ， 仅 仅 是 一 种 为 了 讲解 问题 的 方便 而 赁 空 
制造 的 设备 。 


本 章 将 给 出 globalmem 设 备 张 动 的 私 形 ， 而 后 续 章 节 会 在 这 个 区 形 的 基础 上 添加 并 及 与 同步 控制 等 复 


功能 。 


we 


6.3 globalmem 议 备 豫 动 


6.3.1 头 文件 、 宏 及 设备 结构 体 
在 globalmem 字 人 符 设 备 张 动 中 ， 应 包 售 它 要 使 用 的 头 文 件 ， 并 定义 globalmem 设 备 结构 体 及 相关 安 。 
代码 清单 6.8 ”globalmem 设 备 结构 体 和 宏 


1l#include <linux/module.h> 

2#include <linux/fs.h> 

3#include <linux/init.h> 

4#include <linux/cdev.h> 

5#include <linux/slab.h> 

6#include <linux/uaccess.h> 

7 

S#define GLOBALMEM SIZE Ox1000 

9#define MEM CLEAR 0x1 

10#define GLOBALMEM MAJOR 230 

11 

l2static int globalmem major = GLOBALMEM MAJOR; 
13module param(globalmem major, int, S IRUGO); 
14 

LoStruct globalmem dev 1 

16 struct cdev cdev; 

17 unsigned char mem[GLOBALMEM SIZE]; 

18}; 

19 

ZUscructe. globalmem dev *globalmem devp; 


从 第 15~18 行 代码 可 以 看 出 ， 定 义 的 globalmem dev 设 备 结构 体 包 含 了 对 应 于 globalmem 字 符 设 备 的 
cdev、 使 用 的 内 存 mem[GLOBALMEM SIZE]。 当 然 ， 程 序 中 并 不 一 定 要 把 mem[GLOBALMEM SIZE] 和 
cdev 包 售 在 一 个 设备 结构 体 中 ， 但 这 样 定义 的 好 处 在 于 ， 它 信用 了 面 回 对 象 程序 设计 中 “ 封 痛 ? 的 思想 ， 体 


现 了 一 种 民 好 的 编程 习惯 。 


6.3.2 ”加 载 与 番 载 设备 驱动 


globalmem 设 备 驱 动 的 模块 加 载 和 他 载 图 数 遵循 代码 清单 6.$ 的 类 似 模板 ， 其 实现 的 工作 与 代码 清单 6.5 
完全 一 致 ， 如 代码 清单 6.9 所 示 。 


代 但 清单 6.9  globalmemi 44 SRA PEER HY Wk SN ER ERI 


lstatic void globalmem setup cdev(struct globalmem dev *dev, int index) 
Z1 
3. int err, devno = MKDEV(globalmem major, index); 


o. odev xnit(sdeve^cdev, eglobalmem 110p); 
6 dev-»cdev.owner = THIS MODULE; 
7 
8 


err = cdev add(&dev-»cdev, devno, 1); 
if (err) 
9 printk(KERN NOTICE "Error $d adding globalmem$d", err, index); 
10} 
11 
l2static int | init globalmem init (void) 
low 


14 int ret; 
15 dev t devno = MKDEV(globalmem major, 0); 


16 

17 if (globalmem major) 

18 ret = register ochrdev region (devno, 1, "globslmem".. 
19 else { 

20 rer = alloc chrgdev region(édevno, Uy l, "globalmem"); 
Z1 globalmem major = MAJOR (devno); 

22- } 

23 if (ret < 0) 

24 return ret; 

Zo 


26 globalmem devp = kzalloc(sizeof(struct globalmem dev), GFP KERNEL); 
27 if (!globalmem devp) { 


28 ret = -ENOMEM; 

Z9 goto Tal malloc; 
30 } 

31 


32 globalmem setup cdev(globalmem devp, 0); 
33 return 0; 


99 Tail malloc: 

20 unregister chrdev regi0n(devno, L)? 
ST. return rec; 

38] 

39module init(globalmem init); 


第 1~10 行 的 globalmem setup cdev ©) rRZSE p cdev I] JAMI, 17-221T5& EX f. ix SH HH V 
第 26 行 调用 kzalloc O 申请 了 一 份 globalmem dev 结 构 体 的 内 存 并 清 0。 在 cdev init O 函数 中 ， 与 
globalmem 的 cdev 关 联 的 fle operations 结 构 体 如 代码 清单 6.10 所 示 。 


代 人 担 清单 6.10 — globalmem v $& JJ] E] OCT FTRTE £i 14] V 


lStatrice const Struct. tile. 0peratrlons globaliem Pops = 4 
2 .owner = THIS MODULE, 

3 ,l1lsSeock = globalmem Jiscek, 

4 bead = Globalmem read; 

5 awrite = globalnem wrote, 

6 Unlocked ToCLL = glopalmem cocti 

7 „Open = globalmem open, 

8 „reloads = Global iem, release, 

9}; 


6.3.3” 斌 写 函 数 


globalmem 设 备 驱 动 的 读 写 疯 数 主要 是 让 设备 结构 体 的 mem[] 数 组 与 用 尸 空 间 交 互 数 据 ， 并 随 看 访问 的 
字 节 数 变 更 更 新 文件 谈 与 侦 移 位 置 。 谈 和 与 图 数 的 实现 分 别 如 代码 清单 6.11 和 6.12 所 示 。 


代码 清单 6.11 globalmemi< $& IK) Hy ik PKI 20 


IStadtic B9176 C Globalen read struct ILle *filp, char User ^ DUI. Size © 8126; 
2 loir t * ppos) 


4 unsigned long p = *ppos; 

5 unsigned int count = size; 

6 int ret = 0; 

I €Uruce globalmem dev *dev = ILlip-oprtivate Gata; 
8 


9 if (p >= GLOBALMEM SIZE) 


10 return OF 

ll Xf (coun: > GLOBALMEM SIZE = p) 

12 Count = GLOBACMEM -GLARE = P7 

1 

14 xf (copy to user(buf, dev-omem + py, count)) | 
15 ret = —-EFAULI; 

16 ) else { 

17 “Og += gout 

18 ret = count; 

19 

20 printk(KERN INFO "read $u bytes(s) from @lu\n", count, p); 
21 } 

dd 

23 return rer; 

24} 


*ppos E HEMM EMR FLA FAm OR nS AF eS -F-FGLOBALMEM SIZE， 意 味 着 已 
经 到 达 文 件 末尾 ， 所 以 返回 0 CEOF) 。 


代码 清单 6.12  globalmem7 $e SKA H 53 PR R 


locatio ssize © Globalmem write (Struct. fide *11lp, Const Char . user ~ Dur, 
2 Size L S126, Lott t ~ DDOS) 

24 

4 unsigned long p = *ppos; 

5 unsigned int count = size; 

6 int ret = 0; 

7 struct globalmem dev *dev = filp->private data; 

8 


9 if (p >= GLOBALMEM SIZE) 


10 return 05 

ll itf (count > GLOBALMEM SIZE = p) 

12 count = GLOBALMEM SIZE - p; 

13 

l4 ii (copy from user(dev-smen = p, bury, OCOUDEL)) 
L ret = =~EFAULT; 

16 else { 

17 xpos += Count? 

L8 ret = count; 

19 

20 printk(KERN INFO "written Su bytes(s) from %lu\n", count, p); 
21 } 

22 


23 return ret; 


6.3.4 Seek 国 数 


seek () 函数 对 文件 定位 的 起 始 地 址 可 以 是 文件 开头 CSEEK SET，0) 、 当 前 位 置 (SEEK CUR, 
1) 和 文件 尾 (SEEK END，2) ， 假 设 globalmem 支 持 从 文件 开头 和 当前 位 置 的 相对 偏 移 。 


在 定位 的 时 候 ， 应 该 检查 用 户 请 求 的 合法 性 ， 石 不合 法， 子 数 返回 -EINVAL， 合 法 时 更 新 文件 的 当前 
位 置 并 返回 该 位 置 ， 如 代码 清早 6.13 所 示 。 


代码 清单 6.13 ”globalmem 设 备 驱 动 的 seek O 函数 


Latatio Lone © Globalmem lIssek(struce tile ^LLLp, LOIL © Olrset, ant 0710) 
Z1 
Dc XII moo Us 


4 switch (orig) { 
5 case 0: /* 从 文件 开头 位 置 seek */ 
6 if (offset« 0) { 
| ret = -EINVAL; 
8 break; 
> } 
10 if (unsigned Int)oLrset > GLOBALMEM GLAZE) 1 
11 ret = -EINVAL; 
12 break; 
1.5 } 
14 DIlpcest pos = (Unsigned, Xn5)9rlset; 
15 ree LLID- pos; 
16 break; 
17 case 1: /* 从 文件 当前 位 置 开 始 seek */ 
18 if ((filp->f pos + offset) > GLOBALMEM SIZE) { 
19 ret = -EINVAL; 
20 break; 
21 } 
22 it (ile pos +t oliset) < 0) 4 
23 ret = -EINVAL; 
24 break; 
25 } 
26 tio -2 POS we Gilbert; 
Ad per = tLe SOS 
28 break; 
29 default: 
30 ret = -EINVAL; 
31 break; 
32 } 


33 return ret; 


6.3.5 ioctler av 


1.globalmem 人 设备 驱 动 的 ioctl © 函数 


globalmem 设 备 驱 动 的 ioctl () 函数 接受 MEM CLEAR 命令 ， 这 个 命令 会 将 全 局 内 存 的 有 效 数 据 长 度 
清 0， 对 于 设备 不 文 持 的 命令 ，ioctl ©) 子 数 应 该 返回 -EINVAL， 如 代码 清 蛙 6.14 所 示 。 


代码 清单 6.14 ”globalmem 设 备 驱 动 的 LO 控制 函数 


letatre Jong globaslmem. 2ocul (Suiuce tile “ralp, Unsigned ane Cmd; 
2 unsigned long arg) 


4 struct globalmem dev *dev = filp->private data; 


case MEM CLEAR: 


S 

6 switch (cmd) { 

7 

8 memset (dev->mem, 0, GLOBALMEM SIZE); 


9 printk(KERN INFO "globalmem is set to zero\n"); 
10 break; 
11 
12 default: 
13 return -EINVAL; 
14  ) 
15 
lo return 05 
14) 


在 上 述 程序 中 ，MEM CLEAR 被 安定 义 为 0x01， 实 际 上 这 并 不 是 一 种 值得 推荐 的 方法 ， 人 简单 地 对 命 
令 定 义 为 0x0、0xl、0x2 等 关 似 值 会 导致 不 同 的 设备 豫 动 拥有 相同 的 命令 号 。 如 果 设 备 A、B 都 文 持 0x0、 
0x1、0x2 这 样 的 命令 ， 就 会 造成 命令 个 的 污染 。 因 此 ，Linux 内 核 推 荐 采用 一 套 统 一 的 ioctl O 命令 生成 
2.ioctl O 命令 

Linux 建 议 以 如 图 6.2 所 示 的 方式 定义 iocdt O 的 命令 。 


设备 类 型 ERI 





图 6.2 ”LO 控制 命令 的 组 成 


命令 但 的 设备 类 型 字段 为 一 个 “ 约 数 ”， 可 以 是 0~0xf 的 什 ， 内 核 中 的 ioctl-numbertxt 给 出 了 一 些 推荐 的 
和 已 经 极 使 用 的 “ 约 数 ”， 新 设备 驱动 定义 “ 约 数 ”的 时 候 要 避免 与 其 神 突 。 
命令 但 的 序列 亏 也 是 8 位 宽 。 


命令 码 的 方 癌 字段 为 2 位 ， 访 字段 表示 数据 传送 的 方向 ， 可 能 的 值 是 IOC NONE (无 数据 传输 )、 
IOC READ ( 读 ) 、 IOC WRITE (5) 和 IOC READ] IOC WRITE (双向 ) 。 数 据 传 送 的 方向 是 从 应 
用 程序 的 角度 来 看 的 。 


命令 但 的 数据 长 度 字 段 表 示 涉 及 的 用 户 数据 的 大 小 ， 这 个 成 员 的 宽度 依赖 于 体系 结构 ， 通 癌 是 13 或 者 
14 位 。 


内 核 还 定义 了 _IO ©) IOR O, IOW O 和 _IOWR O 这 4 个 宏 来 辅助 生成 命令 ， 这 4 个 宏 的 通 
用 定义 如 代码 清单 6.15 所 示 。 


代码 清单 6.15 IO O. IOR ©, IOW O 和 IOWR O 宏 定义 


li#define  IO(type,nr) _IOC( IOC NONE, (TYPS) yy (nr) 0) 

2#define  IOR(type,nr,size)  IOC( IOC READ, (type), (nr), 

3 ( IOC TYPECHECK (size) ) ) 

Atdefine IOW(type,nr,size) IOC( IOC WRITE, (type), (nr), \ 

5 ( IOC TYPECHECK (size) ) ) 

6#define  IOWR(type,nr,size) IOC( IOC READ| IOC WRITE, (type), (nr), \ 
( 


7 
8/* IO. IOR 等 使 用 的 IOCZ*/ 
9#define  IOC(dir,type,nr,size) \ 


TOC TYXPECHECK(SIZe))J 


10 (((dir) << IOC DIRSHIFT) | \ 
ut ((type) << IOC TYPESHIFT) | \ 
I ((nr) << IOC NRSHIFT) | \ 
13 ( (size) << IOC SIZESHIFT)) 


由 此 可 见 ， 这 几 个 宏 的 作用 是 根据 传 入 的 type (设备 类 型 字段 )、nr (序列 号 字段 ) 、size (数据 长 度 
字段 ) 和 宏 名 隐 含 的 方向 字段 移 位 组 合生 成 命令 码 。 


由 于 globalmem 的 MEM_CLEAR 命 令 不 涉及 数据 传输 ， 所 以 它 可 以 定义 为 : 


#define GLOBALMEM MAGIC 'g' 
#define MEM CLEAR  IO(GLOBALMEM MAGIC, 0) 


3. 预 定义 命令 


内 核 中 预定 义 了 一 些 UO 控 制 命令 ， 如 果 某 设备 驱动 中 包含 了 与 预定 义 命令 一 样 的 命令 码 ， 这 些 命令 
会 作为 预定 义 命令 被 内 核 处 理 而 不 是 被 设备 驱动 处 理 ， 下 面 列举 一 些 常用 的 预定 义 命令 。 


FIOCLEX: 即 File IOctl Close on Exec， 对 文件 设置 专用 标志 ， 人 退 知 内 核 当 exec〈() 系统 调用 及 生 时 目 
KFT FP SCF 


FIONCLEX: 即 File IOctl Not Close on Exec， 与 FIOCLEX 标 志 相 反 ， 清 除 由 FIOCLEX 命 令 设 置 的 标 


FIOQSIZE: 获得 一 个 文件 或 者 目录 的 大 小 ， 当 用 于 设备 文件 时 ， 返 回 一 个 ENOTTY 错 误 。 
FIONBIO: 即 File IOctl Non-Blocking IO， 这 个 调用 修改 在 flp->f flags 中 的 O NONBLOCK 标 志 。 


FIOCLEX、FIONCLEX、FIOQSIZE 和 FIONBIO 这 些 宏 定义 在 内 核 的 include/uapi/asm-generic/ioctls.h 文 
件 中 。 


6.3.6 ”使 用 文件 私有 数据 


6.3.1~6.3.5 节 给 出 的 代码 完整 地 实现 了 预期 的 globalmem 锥 形 ， 代 码 清单 6.11 的 第 7 行 ， 代 人 码 清 单 6.12 
的 第 7 行 ， 代 码 清单 6.14 的 第 4 行 ， 都 使 用 T struct globalmem dev*dev=filp->private data 获 取 globalmem dev 
的 实例 指针 。 实 际 上 ， 大 多 数 Linux 驱 动 遵循 一 个 “ 潜 规 则 ”， 那 就 是 将 文件 的 私有 数据 private_data 指 向 设 
备 结构 体 ， 再 用 read O . write © . ioctl © Ilseek O 等 函数 通过 private data 访问 设备 结构 体 。 私 有 
数据 的 概念 在 Linux 驶 动 的 各 个 子 系统 中 广泛 存在 ， 实 际 上 体现 了 Linux 的 面向 对 象 的 设计 思想 。 对 于 
globalmem 驱 动 而 言 ， 私 有 数据 的 设置 是 在 globalmem open O 中 完成 的 ， 如 代码 清单 6.16 所 示 。 


代码 清单 6.16 globalmemix AIK open O 函数 


lstatic ane globalnem open(sLtruct inode “inode, sSstrucb tale. *ELLD) 


21 

3 Lllpesprivate date = globalmem devp; 
4 return 0; 

2] 


NTRA EE ESI RE REA, TURIS AO. TS tH T SERENE FHOCTEARAE SUUS EJ 
globalmemB] i ÆI, WIET br T AS A ES Re LES ]/kernel/drivers/globalmem/ch6 H 5& F - 


代码 清单 6.17 使 用 文件 私有 数据 的 globalmem 的 设备 驱动 


Turm 

2 * a simple char device driver: globalmem without mutex 
3 大 

4 * Copyright (C) 2014 Barry Song (baohua@kernel.org) 

口 大 

6 * Licensed under GPLv2 or later. 

d ey 

8 


9#include <linux/module.h> 
10#include <linux/fs.h> 
liginclude <linux/init.h> 
i2geinclude <linux/cdev.h> 
13#include <linux/slab.h> 
14#include <linux/uaccess.h> 
15 
16#define GLOBALMEM SIZE 0x1000 
17#define MEM. CLEAR 0x1 
18#define GLOBALMEM MAJOR 230 
19 
20static int globalmem major = GLOBALMEM MAJOR; 
21module param(globalmem major, int, S IRUGO); 


22 

23scruct globalmem dev 4 

24 struct cdev cdev; 

25 unsigned char mem[GLOBALMEM SIZE]; 

26]; 

2 

28struct globalmem dev *globalmem devp; 

29 

3Ustatrio int globalmem openistruct anode “anode, struct. file *fiip) 
2d 

32 Illpe-prrivate data = glabalmenm deévp; 

33 return 0; 

34} 

39 

369Static int GClobalmem release(struct inode “inode, Sstruce file YELL) 
2 

38 return 0; 

39] 

40 


Alstatrio Long Globalmem 10ctlL(struct tile *Iilp; unsigned ant cma, 


42 unsigned long arg) 

43{ 

44 struct. globalmem dev *dev = ilp- -private data; 
45 

46 switch (cmd) { 

a? cose MEM CERAR? 


48 memset(dev-»mem, 0, GLOBALMEM SIZE); 

49 printk(KERN INFO "globalmem is set to zero Wn"); 
50 break; 

5d 

52 default: 

5S return -EINVAL; 

54 } 

99 

506: qeu X 

5:5 

Se 

SJSbalic ssrae t olobalmem: read (Sstruce. tile "Pulp. chan user = bul, 
60 LOLE © 2p pos) 

614 

62 unsigned long p = *ppos; 

63 unsigned int count = size; 


64 int ret = 0; 

Go Struct ghobalmen.dey uev e rrlbpe:prrvdbte data; 
66 

67 XI («p 2=-GLOBALMEM SIZE) 


68 peburm.05 

09 f (count > GLOBALMEM.SIZE,: p) 

TO count = GbOBALMEM. SIZE = “py 

TA 
ee 
73 ret = -EFAULT; 

74 } else { 

ies ^DDOS = CUNE; 

76 ret. = count; 

PE 

78 printk(KERN INFO "read $u bytes(s) from alun"; count, p); 
Lo) uy 

80 

ol return Ker; 

82] 

Q9 

Sa Statue. SS rz b globodimem write, (Struc. ttle: = Llp -CONS Chat 
35 S328 inge. LOL. E-A PPOs] 
86 { 

87 unsigned long p = *ppos; 

88 unsigned int count = size; 


39: Mnt cet = OF 

DU Struct: globalmemn dev “dew = Ciips privar e data; 
24. 

92 A Xp 2= -GLOBALEMEM) LAE) 


93 return 0; 

94 X SoOoount = GLOBALMEM SIZE = qm) 
95 count = GDOBALMEM SIZE xh oy 
96 


97. ak COPY Irom user (dev=smem py. urbs COUNT) 
98 ret = -EFAULT; 


99 else { 
L00 OS qe cou 
LOI ret =n GOUNE? 
1.02 
103 printk(KERN INFO "written $u bytes(s) from blu\n", 
LOA | 
TOS 
100: return, X90; 
107 } 
108 


GOUN Ey 


HDDOSSLSLLIO ort b gblobDelmem Jiseew(srruce: TALS I LOLL C Obiser, 


LLOJ 
LLL OLE t- Tec- = 05 
TLZ Switch (Orig): 4 


Lo Case 0 

114 if (offset < 0) { 

OM Mes ret = -EINVAL; 

116 break; 

LEZ } 

118 Lf (unsigned 1nt)Orrsel > GLOBALMEM- SIZE) 4 
119 ret = -EINVAL; 

120 break; 

Val } 

122 ELL pei pos wvulisugned-wnu) orhset. 

LZ per = qSLDpesr pos. 

124 break; 

1:25: CaSe d: 

126 if ((filp->f pos + offset) > GLOBALMEM SIZE) { 
do 2f ret = -EINVAL; 

1220 break; 


L29 } 


p); 


Size 2126, 


_ User oss 


EnC Orig) 


130 if ((f1lp >{ pos + Oise) < Dy 4 
131 ret = -EINVAL; 

132 break; 

113 } 

134 ile >t pos += OLLSeSt; 

1:35 pet = SLHpe pos; 

136 break; 

137 default: 

138 ret = -EINVAL; 

129 break; 

140 } 

141 return ret; 

142} 

143 

I445taLtlc const Struct iile operations globalmen tops = 1 


145 .owner = THIS MODULE, 

146 .llseek = globalmem llseek, 
Ia) redd = goobalmem read; 

148 awrite = globalmem write, 


149 unlocked ioctl = globpalmen 100t1; 


150 .open = globalmem open, 


191 56160996. qlobalmem release, 


15215 
15.9 


154static void globalmem setup cdev(struct globalmem dev *dev, int index) 


Loo 


156 int err, devno = MKDEV(globalmem major, index); 


1:37 


158 cdev init(&dev-»cdev, &globalmem fops); 


1959 dev=>cdev.owner = THis MODULE; 


l60 err = Cdev addtesdeve-cdev, l); 

161 if (err) 

162 printk(KERN NOTICE "Error $d adding globalmem$d", err, index); 
165] 

164 

lo50staLLic Int . igit globalnem. anit (voro) 

1661 

167 int ret; 

168 dev t devno = MKDEV(globalmem major, 0); 

169 

170 if (globalmem major) 

Lire Pet = reg Leter chnrdev regron(devno, Li. "globalmenm")s 
172 else { 

173 pet = alloc ochHrdev reogrion(&sdevno, U; jy “globalmem”™) 7 
174 globalmem major = MAJOR (devno) ; 

Li g 

176 if (ret < 0) 

177 return ret; 

178 


179 globalmem devp = kzalloc(sizeof(struct globalmem dev), GFP KERNEL); 


180 if (!globalmem devp) { 
181 ret = -ENOMEM; 
1942 goro Bell malloc; 
153 J 

184 


185 globalmem setup cdev(globalmem devp, 


186 return 0; 
187 
199. Tail malloc: 


1992 unteogister chrdev. region (cdevno, 


L90 return Let; 

121] 

192module init(globalmem init); 
1239 


l9455L8LlC vold . exit globalmem exic(ivord) 


49951 


196 cdev del(&globalmem devp->cdev) ; 


197 kfree(globalmem devp); 


UE 


198 unregister chrdev region (MKDEV (globalmem major, 0), 1); 


199} 
200module exit(globalmem exit); 
201 


202MODULE AUTHOR("Barry Song «baohua(8kernel.org»"); 


ZUSMODULE LEICENSE( "CP w2")7 
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读者 朋友 们 ， 这 个 时 候 ， 请 


人 
JOD 


翻 到 本 书 的 第 1 章 ， 再 次 阅读 代码 清单 1.4， 即 Linux 下 LED 的 设备 


如 果 globalmem 个 只 包括 一 个 设备 ， 而 是 同时 包括 两 个 或 两 个 以 上 的 设备 ， 采 用 private data) Jb $339 


会 集中 显现 出 来 。 在 不 对 代码 清单 6.17 中 的 globalmem read O 、globalmem write © ~ 

globalmem ioctl O 等 乍 要 函数 及 globalmem fops 结 构 体 等 数据 结构 进行 任何 修改 的 前 提 下 ， 只 是 简单 地 
修改 globalmem init () 、globalmem exit () 和 globalmem open © ， 就 可 以 轻松 地 让 globalmem 驱 动 中 包 
NSAI CRI SIT AON) ， 如 代 但 清单 6.18 列 出 了 文 持 多 个 实例 的 globalmem 和 文 持 单 实例 
的 globalmem 驱 动 的 差异 部 分 。 


代码 清单 6.18 3 dRINTglobalmemi # HJ globalmemJKZ)) 


l#define GLOBALMEM SIZE Os. 0:00 

2#define MEM CLEAR 0X1 

3#define GLOBALMEM MAJOR 230 

4#define DEVICE NUM LO 

5 

OStatic. Ne globalmem open(struce anode. *1nodey. struce. file = LID) 
71 

oO. Struct globdlmem dev. "dev = wontalHer ort'rJode--r icdev, 
9 sScruct dqlobelmemn xev; -OGdev); 
ELO ti bor priva tedata = dey; 
Ll -retürmu v; 


12} 

2 

lagtatric ine . ant globalmem inte (vod) 

1:53 

LG ant rert; 

Lk XD. iy 

IS. dev t devno = MKDEV(globalmem. major, 0); 

LY 

20 if (globalmem major) 

ZA: pet = regusver -chrdev: region (devno,. DEVICE NUM, "grlobalmem"); 
22 else { 

ZS ret — alloc chHrdev region(sdevno, 0, DEVICE NUM, "globalmem"); 
24 globalmem major = MAJOR (devno); 

Zo 3} 

245. 'N3B Arer < 0» 

zc return ret; 

28 


29. -grobalmem deve. = kzalloc(ssa2eotf(struct globalmem dev) =  DEVECE..NUM, GEP KERNEL); 
30 if (!globalmem devp) { 


Sek ret = -ENOMEM; 

32 goto tail malloc; 

2:95 4 

34 

So: Or i = Oy a = DEVICE NUM) 

36 globalmem setup cdev(globalmem devp + i, 1); 
3 

so Ceturn 97 

39 


A0rall malloo: 
4l unregister chrdev region(devno, DEVICE NUM); 
42 return ret; 


43) 

44module init(globalmem init); 

45 

Jostatic void exit globalmem exit(voird) 

47 ( 

AS. Amt E 

49 Lor Ci = iO wx DEVICE NUM; 1 十 十 ) 

50 cdev- del ¢(globalmem devp 4 1)=>cdev); 


9l kfree(globalmem devp); 

52; unregrister chrdev regron(MRDEViglobalimem major; Okr DEVICE NUM); 
92 

o4dmoduleexrtUtglobalmem- exrcc)y 


代码 清单 6.18 第 8 行 调用 的 container of ©) 的 作用 是 通过 结构 体 成 员 的 指针 找到 对 应 结构 体 的 指针 ， 
这 个 技巧 在 Linux 内 核 编程 中 十 分 第 用 。 在 container of (inode->i cdev，struct globalmem dev，cdev) 语句 
中 ， 传 给 container of O 的 第 1 个 参数 是 结构 体 成 员 的 指针 ， 第 2 个 参数 为 整个 结构 体 的 类 型 ， 第 3 个 参数 


为 传 入 的 第 1 个 参数 即 结构 体 成 员 的 类 型 ，container of O 返回 值 为 整个 结构 体 的 指针 。 


从 代码 清单 6.18 可 以 看 出 ， 我 们 仅仅 进行 了 极其 少量 的 更 改 束 使 得 globalmem 张 动 支 持 多 个 实例 ， 这 
— ua ul EE EMAA AEJ]. WRI T kernel/drivers/globalmem/ch6/multi globalmem.c F> fay Fu 
globalmem.c 和 multi globalmem.c《 以 “-”* 和 “+” 开头 的 代码) 的 区 别 如 下 : 


GG 29, 7 430,9 88 struct globalmem dev *globalmem. devp; 
State nt-giobslmem Openi(stoucct. node nodes Struct file "IIID) 


{ 


Lip pLivale data = globalmem- devps 

Scruct Globalmem dev dev — Container or (1node=>2 .cdév, 
struct globalmem dev, cdev); 

Lrlpsesprrivate data ‘= dev; 

return. Q; 


+ + + 


j 
Ce —165,97 1698,52 CC Statio void globalmem setup cdevistruct globalmem dew *dev, 
int index) 
Stacie ane. ane: globadlmem CXnitovosd) 
{ 
Int ret; 
+ SUPE Ly 
dev t devno = MKDEV (globalmem major, 0); 
if (globalmem major) 


= reb = Legio Cer cHrdev reglcon(devno;. d. "globalmem"). 

t tel, = reg oter cbrdev reocomntedevno; DEVICE NUM, "globatmem"). 
else { 

S ren e alloc chrdev cregron(sdevno,. 0, -Ly “globalmem™); 

十 pert = alloc ichrdey reguon(cdeyvno,. Op DEVICE NUM, “olobalmem™);; 


globalmem major = MAJOR(devno) ; 
) 
if (ret « 0) 
return ret; 
— Globalmem devp = kzalloc(srzeor(sutrucc globalmem dev); GEP KERNEL) 7 


二 globalmem devp = kzalloc(sizeof (struct globalmem dev). * DEVICE NUM, GFP KERNEL); 
if (fglobalmem. devp) 1 
ret = -ENOMEM; 


goto faa malloc; 
j 
globalmem setup-odevigloDalmem.devp; 90); 
F Lor dno cA uoc DEVICE: NUM: SE 
T globalmem setup cdéev (globalmem devp F <a) <b) 7 
十 


return 0y 
= (rel mad Loc 
一 人 
Theda, melloco: 
+ umregrister/ ohrdev regron(devno, DEVICE NUM); 
return ret; 
) 
module oni (globalmem. 01t); 
Staro void «cecoglobalmem exrttvorq) 
{ 
= cdev del (&globalmem_ devp->cdev) ; 


+ IC du 

+ LOr dq 30g a = DEVLOE. NUM: uis) 

十 cdev- del(S&(globalmem devp +1.) =>cdev) 7 
kfree(globalmem devp) ; 

ES unregister chrdev regron(MKDEV(globalmenm major, 0), IJ; 

F unregister chrdev_region (MKDEV(globalmem major, 0), DEVICE NUM); 


} 


module exit(globalmem exit); 


6.4 globalmemJIX ZJ 4E H J^? 5 [B] FH E] Jub 
7EglobalmemH HARIS H 3388 “make” it 4 Zim  globalmemAYy 3X2), 74 24llelobalmem.ko X fF. i&íT 


baohua8baohua-VirtualBox:-/develop/training/kernel/drivers/globalmem/ch6$ sudo 
insmod globalmem. ko 


命令 加 载 模 块 ， 退 过 “lInsmod”* 命 令 ， 友 现 globalmem 模 块 已 被 加 载 。 再 退 过 “cat/proc/devices” 命 令 但 
看 ， 发 现 多 出 了 主 设备 号 为 230 的 “globalmem ”字符 设备 驱动 : 


S cat /proc/devices 
Character devices: 
lmem 
4/dev/vc/0 
4tty 
4ttys 
5/dev/tty 
5/dev/console 
5/dev/ptmx 
TVCS 
1Omisc 
L3anput 
14sound 
21sg 
ZOTb 
lloalsa 
1:2 Ot 
l136pts 
180usb 
159u8D device 
202cpü/msr 
203cpü/cpuüid 
226drm 
2 3 globalmem 
249hidraw 
250usbmon 
251bsg 
Zo2ptpo 
ZOOS 
254rtc 


接 下 来 ， 通 过 命令 
#mknod /dev/globalmem c 230 0 


GJ ££ */dev/globalmem" 1x #4 i A,» = FFI “echo'hello world'>/dev/globalmem’ fit  #ll“cat/dev/globalmem” fig 4 47 


A UE IB, REH “hello world” 字 符 串 被 正确 地 写 入 了 globalmem 字 从 设备 : 


# echo "hello world" > /dev/globalmem 
# cat /dev/globalmem 
hello world 


如 果 启 用 了 sysfs 文 件 系统 ， 将 发 现 多 出 了 /sys/module/globalmem 目 录 ， 该 目录 下 的 树 形 结构 为 : 


.l-- coresize|— holders} — initsize|-— initstate}+- notes} — parameters| L— globalmem major}; — refcnt}— sections 


refentid K 了 globalmem 模 块 的 引用 计数 ，sections 下 包含 的 几 个 文件 则 给 出 了 globalmem 所 包含 的 BSS、 


数据 段 和 代码 段 等 的 地 址 及 其 他 信息 。 


对 于 代码 清单 6.18 给 出 的 文 持 N 个 globalmem 设 备 的 张 动 ， 在 加 载 模块 后 需 创 建 多 个 设备 和 点 ， 如 运行 
mknod/dev/globalmem0c 2300 使 得 /devwglobalmem0 对 应 主 设备 号 为 globalmem major, RRA SNORE., 
运行 mknod/devwglobalmemlc 2301 使 得 /dewglobalmem1 对 应 主 设备 号 为 globalmem major、 次 设备 号 为 1 的 设 
备 。 分 别 读 写 /dewglobalmem0 和 /dewglobalmem1， 发 现 都 该 写 到 了 正确 的 对 应 的 设备 。 


6.5 i 


40 —HI 


字符 设备 是 3 大 类 设备 《字符 设备 、 块 设备 和 网 络 设备 ) 中 的 一 类 ， 其 驱动 程序 完成 的 主要 工作 是 初 
始 化 、 添 加 和 删除 cdev 绪 构 体 ， 申 请 和 释放 议 备 志 ， 以 及 项 苑 f 和 e_ operations fA "P HJBRTEPNZA SKIN 
file operations 结 构 体 中 的 read ©) ~ write ©) #llioctl O 等 郊 数 是 驱动 设计 的 主体 工作 。 


e 


"BIS  Linuxix K IKa P pI Aca ni 


本 章 导读 


在 Linux 设 备 驱 动 中 必须 解决 的 一 个 问题 是 多 个 进程 对 共 圣 资源 的 并 友 访 问 ， 并 友 的 访问 会 村 致 苋 


即使 是 经 验 丰 明 的 驱动 工程 是 也 会 沼 第 设计 出 包含 并 友 问 题 bug 的 驱动 程序 。 
Linux 提 供 了 多 种 解决 苋 态 问题 的 方式 ， 这 些 方式 适合 个 同 的 应 用 场景 。 

7.1 方 讲解 了 并 友和 苋 态 的 概念 及 友 生 场合 。 

7.2 证 则 讲解 了 编 详 乱 序 、 执 行 配 序 的 问题 ， 以 及 内 存 屏 障 。 

7.3~7.8 贡 分 别 讲解 了 中 断 屏 营 、 原 子 操作 、 上 自 旋 锁 、 信 号 量 和 互 斥 体 等 并 发 控制 机 制 。 


7.9 廊 讲解 增加 并 发 控制 后 的 globalmem 的 设备 驱动 。 


71 FRIA 


FE (Concurrency) 指 的 是 多 个 执行 单元 同时 、 并 行 被 执行 ， 而 并 用 的 执行 单元 对 共 孚 资源 〈 便 件 资 
源 和 软件 上 的 全 局 变量 、 静 态 变 量 等 ) 的 访问 则 很 容易 导致 竞 态 (Race Conditions) 。 例 如 ， 对 于 
globalmem 设 备 ， 假 设 一 个 执行 单元 A 对 其 写 入 3000 个 字符 “a”*”， 而 男 一 个 执行 单元 B 对 其 写 入 4000 个 “b”， 
第 三 个 执行 蛙 元 C 读 取 globalmem 的 所 有 字符。 如 果 执 行 蛙 元 A、B 的 与 操 作 按 图 7.1 那 样 顺 序 友 生 ， 执 行 早 
元 C 的 读 操作 当然 不 会 有 什么 问题 。 但 是 ， 如 采 执 行 单元 A、B 投 图 7.2 那 样 被 执行 ， 而 执行 单元 C 又 “不 合 
时 宜 ? 却 谈 ， 则 会 谈 出 3000 个 “b”。 


执行 单元 A 执行 单元 B 执行 单元 C 


copy from. user (dev->mem+p, buf, count) 


dev-- current _len=p+count 


read. globalmem() 


copy from. user (dev—>mem+p, buf, count) 


dev—> current _len=p+count 


read. globalmem() 


图 7.1 并 友 执 行 单元 的 顺序 执行 


执行 单元 A 执行 单元 B 执行 单元 C 


dev—> current _len=p+count 


图 7.2 ”并 友 执 行 单元 的 交错 执行 


比 图 7.2 更 复杂 、 更 混乱 的 并 发 大 量 存 在 于 设备 驱动 中 ， 只 要 并 发 的 多 个 执行 单元 存在 对 共享 资源 的 
访问 ， 竞 态 就 可 能 发 生 。 在 Linux 内 核 中 ， 主 要 的 竞 态 发 生 于 如 下 几 种 情况 。 


1 .对 称 多 处 理 器 CSMP) 的 多 个 CPU 


SMP 有 古 一 种 紧 灯 合 、 共 于 存储 的 系统 模型 ， 其 体系 结构 如 图 7.3 所 示 ， 它 的 特点 十 多 个 CPU 使 用 共同 
的 系统 忌 线 ， 因 此 可 访问 共同 的 外 设 和 储存 此 。 





图 7.3” SMP 体系 结构 


在 SMP 的 情况 下 ， 两 个 核 《CPU0 和 CPU1) 的 苋 态 可 能 有 反 生 于 CPU0 的 进程 与 CPU1 的 进程 之 间 、 
CPU0 的 进程 与 CPU1 的 中 断 之 间 以 及 CPU0 的 中 断 与 CPU1 的 中 断 之 间 ， 图 7.4 中 任何 一 条 线 连 接 的 两 个 实 
TAS AIA TZ TAFE AC RI RETE o 














图 7.4 SMP 下 多 核 之 间 的 竞 态 


2. 单 CPU 内 进程 与 抢占 它 的 进程 


Linux 2.6 以 后 的 内 核 支 持 内 核 抢 占 调度 ， 一 个 进程 在 内 核 执 行 的 时 候 可 能 耗 完 了 利己 的 时 间 片 
(timeslice) ， 也 可 能 被 另 一 个 高 优先 级 进程 打 断 ， 进 程 与 抢占 它 的 进程 访问 共享 资源 的 情况 类 似 于 SMP 
的 多 个 CPU。 


3. 中 断 〈 硬 中 断 、 软 中 断 、Tasklet、 底 半 部 ) 与 进程 之 间 
中 断 可 以 打 断 正在 执行 的 进程 ， 如 果 中 断 服 务 程序 访问 进程 正在 访问 的 资源 ， 则 兑 态 也 会 发 生 。 


此 外 ， 中 断 也 有 可 能 被 新 的 更 高 优先 级 的 中 断 打 断 ， 因 此 ， 多 个 中 断 之 间 本 映 也 可 能 引起 并 发 而 导致 
竞 态 。 但 是 Linux 2.6.35 之 后 ， 就 取消 了 中 断 的 嵌 套 。 老 版 本 的 内 核 可 以 在 申请 中 断 时 ， 设 置 标记 
IRQF_ DISABLED 以 避免 中 断 租 撩 ， 由 于 新 内 核 直 接 吏 默认 不 能 误 中 断 ， 这 个 标记 反而 变 得 无 用 了 。 详 情 
WLhttps://lwn.net/Articles/380931/3C#4 «Disabling IRQF DISABLED) . 


上 上述 并 及 的 安生 除了 SMP 坪 真正 的 并 行 以 外 ， 其 他 的 都 是 单 核 上 的 “宏观 并 行 ， 微 观 串 行 ”， 但 其 引 及 
的 实质 问题 和 和 SMP 相似 。 图 7.5 再 现 了 了 SMP 情况 下 忌 的 苋 争 状态 可 能 性 ， 既 包含 系 一 个 核 内 的 ， 也 包括 两 


SH TAY EN SAS o 











图 7.5 SMP Px lH) SAKA GEARS 


PRR TEA H 78. BI] eR Fe PRUE MT FEE EVR HL Fe Te), A BR Og H ee tat T 341 EEV IH] 2&7 9t)R 
的 时 候 ， 其 他 的 执行 单元 被 茶 止 访问 。 


访问 共 画 资源 的 代码 区 域 称 为 临界 区 (Critical Sections) ， 临 界 区 需要 被 以 某 种 互 斥 机 制 加 以 保护 。 
HADER JY EIE. BOWEBA. asr HJRMH S XELinuxie Ub Jr nu] A3 HHTJ EL FEAR 46 


7.2. 编 详 乱 序 和 执行 乱 序 


理解 Linux 内 核 的 锁 机 制 ， 还 需要 理解 编译 磺 和 处 理 右 的 特点 。 比 如 下 面 一 段 代码 ， 与 十 申请 一 个 新 
的 struct foo 结 构 体 并 初始 化 其 中 的 a、b、c， 之 后 把 结构 体 地 址 赋值 给 全 局 gp 指针 : 


struct foo { 

int as 

int D? 

int 603 
E 
Struct foo gb = NULL; 
Pr a s "y 
kmalloo(sSLzeof(^p), GEP KERNEL); 
1; 
2 
oi 


p = Km 
=e, = 
p->b = 
p=7C = 
oF > 


e. 
, 


p 
而 谈 病 如 示人 简单 做 如 下 处 理 ， 则 程序 的 运行 可 能 和 是 不 人 符合 预期 的 : 


r = gp 
af AP PS NULD) 1 

do something with(p >a, p>b; pac); 
j 


有 两 种 可 能 的 原因 会 造成 程序 出 错 ， 一 种 可 能 性 是 编 详 乱 序 ， 万 外 一 种 可 能 性 是 执行 乱 序 。 


关于 编译 方面 ，C 语 言 顺序 的 “p->a=1; p->b=2; p->c=3; gp=p; ”的 编译 结果 的 指令 顺序 可 能 是 gp 的 
赋 信 指令 及 生 在 a、b、c 的 骨 信 之前。 现代 的 高 性 能 编 详 硕 在 目标 但 优化 上 都 共 备 对 指令 进行 乱 序 优化 的 
能 力 。 编 详 苍 可 以 对 访 仓 的 指令 进行 乱 序 ， 减 少 逸 辑 上 不 必要 的 访 仔 ， 以 及 尽量 迫 高 Cache 命中 率 和 CPU 
的 Load/Store 早 元 的 工作 效率 。 因 此 在 打开 编 详 从 优化 以 后 ， 看 到 生成 的 汇编 代 并 没有 严格 按照 代码 的 地 
ARS, XE E H o 


解雇 编 详 乱 序 问 题 ， 需 要 通过 barrier () 编译 屏障 进行 。 我 们 可 以 在 代码 中 设置 barrier() BEM, 3x 
个 屏障 可 以 阻挡 编译 右 的 优化 。 对 于 编译 右 来 说 ， 设 置 编译 屏 障 可 以 保证 屏障 前 的 语句 和 屏障 后 的 语句 不 
BLUT. 


比如 ， 下 面 的 一 段 代 码 在 e=d[4095] 与 b=a、c=a 之 间 没 有 编译 屏障 : 


Int Maln(int argc, char *argy|.]) 
{ 
int a = 0, b, c, dal4096], e; 
e = d[4095]; 
b = a; 
C= a; 
printf ("avca bisd Cicd eisdinn"; a, bj cp, 6)32 
return 05 


^arm-linux-gnueabihf-gcc-O2" Rimi, IL 2m RE: 


rnt main(int argo, har 下 | 


{ 


So Ley. T3590 push. r4, roy Lr} 
831e: f5ad 4d80 sub.w sp, sp, #16384 ; 0x4000 
oo2 DOGS sub Sou GZ 
go24 s 21.00 movs rl, #0 
OSZ68- debo. 42530 add.w Fo Sp; 350145394 ; 0x4000 
O32g$ 1249-2018 movw r0, #33816 ; 0x8418 
832e: 3504 adds r5, #4 
8330: 460a MOV: XE. X -> b= a 
039352* «ODD MOV. 3g Xu -> C= a 
S354 L260 30019 movt r0, #0 
9.9 359€ "062€ ones ew [ES Sp 
833a: 9400 str r4, [sp, #0] -> e = d[4095]; 
OOo TJI erdd Dix. 6268 4 ANLEO? 
) 
显然 ， 尺 管 源 代码 级 别 b=a、c=a 发 生 在 e=d[4095] 之 后 ， 但 是 目标 代码 的 b=a、c=a 指 令 发 生 在 


e=d[4095] 之 前 。 
假设 我 们 重新 编写 代码 ， 在 e=d[4095] 与 b=a、c=a 之 间 加 上 编译 屏障 : 


#define barrier () asm 


ko. _ WOlacrle. quM x 
Int. main(int argc; char “Aargy |) 


{ 


:"memory"™) 


Ent. mc ID “Cc, 
e = d[4095]; 
barrrer(); 

b = a; 

C= a; 
printpr(tasco besed .c:vd e:2d\n"; a; 
return 30. 


lO ool > 


Dy dy 9) 


册 次 用 “arm-linux-gnueabihfgcc-O02” 优 化 编译 ， 反 汇编 结 末 是 : 


ine main(int sarge, char *argwrl) 


{ 


Bowes -BoU push {r4, 1r} 

831e: foad 4d80 sub.w sp, sp, #16384 ; 0x4000 
o23229t 0852 sub- Spy: de 

93245 Loud 2360 add.w r3, sp, #16384 = (040:00 
83267 $3504 adds r3, #4 

832a: Sol Joc uud. TES; Ww] 

83207 2100 movs rl, #0 

S32e% £248 4018 movw r0, #33816 = 0x8418 

62527. E200 0000 movt r0, #0 

8336: 9400 StE 14,5. lsp; F0] -> e = d[4095]; 
8338: 460a Move 224. JL -> b= a; 
833a: 460b Mov: Sag: ri -> C= a; 
Docs TCL erdi DIX 3280 < 1nat+0x20> 


Jj“ asm volatile — (""; 


bo" Ts 


"memory") ”这 个 编 详 屏障 的 人 存在， 原来 的 3 条 指令 的 顺序 “ 氢 乱 


天 于 解决 编 详 乱 序 的 问题 ，C 语 言 Volatile 关 键 字 的 作用 较 蚤 ， 它 更 多 的 只 是 避免 内 存 访 问 行为 的 合 
并 ， 对 C 编 译 夯 而 言 ，volatile 是 暗示 除了 当前 的 执行 线索 以 外 ， 其 他 的 执行 线索 也 可 能 改变 茶 内 存 ， 所 以 
它 的 食 义 是 “ 易 变 的 "。 换 句 话 襄 ， 束 是 如 来 线程 A 读 取 var 这 个 内 存 中 的 变量 两 次 而 没有 修改 var， 编 详 右 
可 能 觉得 读 一 次 束 行 了 ， 第 2 次 直接 取 第 1 次 的 结果 。 但 是 如 果 加 了 volatile 关 键 字 来 NU ie Er YF 
A eae OPEB. RIEC EA HABIT KAN pede vac Y. DUC Eat ail AN S FE AEA TUS IN S823X A TF 
读 取 优化 挥 了 。 为 外 ，volatile 也 不 具备 你 护 临 界 资 源 的 作用 。 忌 之 ，Linux 内 核 明显 不 太 嘻 欢 volatile， 


A, TPR 


乡 合 Var， 


iX 


可 参考 内 核 源 代码 下 的 文档 Documentation/volatile-considered-harmful.txt。 


编 详 乱 序 古 编 详 旧 的 行为 ， 而 执行 配 序 则 是 处 理 问 运行 时 的 行为 。 执 行 乱 友 是 指 即 便 编 详 的 二 进 制 指 
令 的 顺序 按照 ->a=1; p->b=2; p->c=3; gp-p: ”排放 ， 在 处理 右 上 执行 时 ， 后 友 冉 的 指令 还 是 可 能 先 执 
行 完 ， 这 是 处 理 器 的 “ 乱 序 执行 COut-of-Order Execution) ”策略 。 高 级 的 CPU 可 以 根据 自己 缓存 的 组 织 特 
性 ， 将 访 存 指令 重新 排序 执行 。 连 续 地 址 的 访问 可 能 会 先 执行 ， 因 为 这 样 缓存 命中 率 局 。 有 的 还 允许 访 存 
的 非 阻 睡 ， 即 如 果 前 面 一 条 访 存 指令 因为 缓存 不 命中 ， 千 成 长 延 时 的 存储 访问 时 ， 后 面 的 访 存 指 令 可 以 先 
执行 ， 以 便 从 绥 和 存 中 取 数 。 因 此 ， 即 使 是 从 汇编 上 看 顺序 正确 的 指令 ， 其 执行 的 顺序 也 十 个 可 预知 的 。 


举 个 例子 ，ARM v6/v7 的 处 理 器 会 对 以 下 指令 顺序 进行 优化 。 


假设 第 一 条 LDR 指 令 寻 致 缓存 未 命中 ， 这 样 缓存 驶 会 填充 行 ， 并 需要 较 多 的 时 钟 周期 才能 完成 。 老 的 
守 这 个 动作 完成 ， 再 执行 下 一 条 STR 指令 。 而 ARM v6/v7 处 理 器 会 识 
于 第 一 条 指令 DR) 完成 ‘并 不 依赖 于 r0 的 值 》， 即 会 先 执行 STR 


ka 
em 


ARMAS as, LUUIARM926EJ-SZ S 
别 出 下 一 条 指令 〈STR ) HE ES 


指令 ， 而 不 是 等 待 LDR 指 令 完 成 。 


E 
E 


PRE BARAT > RESEPCPUBESRLHGTAT. {Eee ELTA T E EY RE AV xe P n] JU 
的 ， 因 为 单个 CPU 在 大 到 依 顿 点 《后 面 的 指令 依赖 于 前 面 指令 的 执行 结束 ) 的 时 候 会 等 待 ， 所 以 程序 员 可 
能 感 澳 不 到 这 个 乱 序 过 程 。 但 是 这 个 依赖 点 等 待 的 过 程 ， 在 SMP 处 理 左 里 面 对 于 其 他 核 是 不 可 见 的 。 比 如 


若 在 CPU0 上 执行 : 


while (f == 0); 
prar X7 


CPUI 上 执行 : 


上 gu 
m! A 
RI NO 

“Ne 


Fh X 


EAI AS BEALI IA 79CPUO. EH Hx 4E SE 3-42, PNZJCPUI EBD" E-1" 4 PETE “x=42” Ja Bl, SAAT IN 
仍然 可 能 先 于 “x=42” 完 成 ， 所 以 这 个 时 候 CPU0 上 打印 的 x 不 一 定 束 是 42。 
处 理 占 为 了 解决 多 核 则 一 个 核 的 内 存 行为 对 为 外 一 个 核 可 见 的 问题 ， 引 入 了 一 些 内 存 屏 障 的 指 仿 。 喜 
如 ，ARM 人 处 理 右 的 屏障 指令 包括 : 
DMB 《数据 内 存 屏 障 ) : 在 DMB 之 后 的 显 式 内 存 访问 执行 前 ， 保 证 所 有 在 DMB 指 令 之 前 的 内 存 访问 
Ms 


alt 


DSB 数据 同步 屏障 ) : 等 每 所 有 在 DSB 指 令 之 前 的 指令 完成 (位 于 此 指令 前 的 所 有 显 式 内 存 访 问 均 
完成 ， 位 于 此 指令 前 的 所 有 绥 存 、 跳 转 了 预测 和 TLB 维 护 操作 全 部 完成 ); 


ISB KS E ERR) : Flush 流 水 线 ， 使 得 所 有 JISB 之 后 执行 的 指令 都 是 从 绥 存 或 内 存 中 获得 的 。 


Linux 内 核 的 目 放 锁 、 互 斥 体 等 互 斥 逻辑 ， 需 要 用 到 上 述 指令 : FERRIS, VAR BETES; 在 
解锁 时 ， 也 需要 调用 屏 隐 指令。 代码 清单 7.1 的 汇编 代码 摘 绘 了 一 个 简单 的 互 斥 逻辑 ， 留 意 其 中 的 第 14 行 
和 22 行 。 关 于 ldrex 和 strex 指 令 的 作用 ， 会 在 7.3 贡 评述 。 


代码 清单 7.1 基于 内 存 屏障 指令 的 互 斥 逻辑 


1LLOCKED EQU 1 
2UNLOCKED EQU 0 
3lock mutex 














4 ; 互 斥 量 是 否 锁定 ? 
5 LDREX r1, [r0] ” ”检查 是 否 锁定 
6 CMP rl, #LOCKED ; AI" Locked" eK 
7 WFEEQ P 互 斥 量 已 经 锁定 ， 进 入 休 眼 
8 BEQ lock mutex ” 被 唤醒 ， 重 新 检查 互 斥 量 是 否 锁定 
9 ; 尝试 锁定 互 斥 量 
TD MOV rl, #LOCKED 
11 STREX £2. rl, [eo] ; SAE 
12 CMP r2, #0x0 ; 检查 STR 指令 是 否 完 成 
13 BNE lock mutex E DEM ud 
14 DMB PO 进入 被 保护 的 资源 前 需要 隔离 ， 保 证 互 斥 量 已 经 被 更 新 
15 BX lr 
16 
l7unlock mutex 
18 DMB ” 保证 资源 的 访问 已 经 结束 
19 MOV rl, #UNLOCKED ; ee MS "unlocked" 
20 STR. rl, DEO] 
2l 
22 DSB ; 保证 在 CPU 唤醒 前 完成 互 斥 量 状态 更 新 
2 SEV ” 像 其 他 CPU 发 送 事件 ， 唤 醒 任 何等 待 事件 的 CPU 
24 
295 BX lr 


前 面 提 到 每 个 CPU 都 是 乱 序 执行 ， 但 是 单个 CPU 在 碰 到 依赖 点 的 时 候 会 等 待 ， 所 以 执行 乱 序 对 单 核 不 
一 定 可 见 。 但 是 ， 当 程序 在 访问 外 设 的 寄存 器 时 ， 这 些 寄存 器 的 访问 顺序 在 CPU 的 逻辑 上 构 不 成 依赖 关 
系 ， 但 是 从 外 设 的 逻辑 角度 来 讲 ， 可 能 需要 固定 的 寄存 器 读 写 顺序 ， 这 个 时 候 ， 也 需要 使 用 CPU 的 内 存 屏 


障 指 令 。 内 核 文 档 Documentation/memory-barriers.txt 和 Documentation/io ordering.txt 对 此 进行 了 摘 述 


在 Linux 内 核 中 ， 定 义 了 旋 写 屏障 mb〈() 、 旋 屏障 rmb OO) 、 写 屏障 wmb ©) 4. ULATERIT SERA 
写 的 iormb Ò ~  iowmb O) 这 样 的 屏障 API。 旋 写 寄 存 右 的 readl] relaxed () 和 readl €) 、 
writel relaxed () 和 writel ©) API 的 区 别 惑 体现 在 有 无 屏障 方面 。 


#define readb (c) ({ u8 | v = readb relaxed(c);  iormb(); v; }) 
#define readw(c) ({ ul6 v = readw relaxed(c); | iormb(); v; }) 
#define readl (c) ({ u32 v = readl relaxed(c);  iormb(); v; )) 
#define writeb(v,c) (1 iowmb(); writeb relaxed(v,c); }) 
#define writew(v,c) (( | iowmb(); writew relaxed(v,c); j) 
#define writel(v,c) ( { 1owmb(); writel relaxed(v,c); }) 


比如 我 们 通过 writel relaxed O 写 完 DMA 的 开始 地 址 、 结 束 地 址 、 大 小 之 后 ， 我 们 一 定 要 调用 
writel C) 来 局 动 DMA。 


writel relaxed(DMA SRC REG, 


SEC addrz); 


writel relaxed DMA DST REG, dst addr); 


writel relaxed(DMA SIZE REG, 
1); 


writel 


(DMA ENABLE, 


Size); 


7.3 ADT BRR 


TE CPU YÈ Fi] P 3E 4. 6 AS B] A [6] EP TIU A 2E] 23 135 38 CE E ANM FD. ZH BE BSCE AT, Ae FERRI) 
编程 中 不 值得 推 荐 ， 张 动 通 利 需要 车 夸 路 平台 特点 而 不 假定 目 己 在 单 核 上 运行 。CPU 一 般 都 具备 屏 贡 中 断 
和 打开 中 断 的 功能 ， 这 项 功能 可 以 你 证 正在 执行 的 内 核 执 行路 径 不 个 中 断 处 理 程序 所 抢占 ， 防 止 条 些 苋 态 
条 件 有 的 友 生 。 具 体 而 言 ， 中 靳 屏蔽 将 使 得 中 靳 与 进程 之 间 的 并 友人 不 于 友 生 ， 而 且 ， 由 于 Linux 内 核 的 进程 
调度 等 操作 部 依赖 中 靳 来 实现 ， 内 核 抢 占 进 程 之 间 的 并 有 友 也 得 以 避 倪 了 。 


-H Ir BE Wc E f FH 23 3 7J : 


local irq disable() /* 屏蔽 中 断 */ 
critical section /* 临界 区 */ 


local irq enable() /* gr / 


AE ES] SCIL JR BR XE CPUS Ep Ang VA, BLU. OXPTARMAEZEZsTU E) FEJE ASKE E BE 
ARM CPSR 的 I 位 : 


statie Inline void arch local Tg disable(vord) 


{ 
asm volatile ( 
7 cperd 1 G arch local irg disable" 


: "memory", "cc"); 


Hi T Linux] sea /O. ite Wal BE SR ER Be VE a OR A, PY TA AIST AE ae SEE, TEBÉ 
iic FRE BA PE WP AB AS BAS, EC ES Ta) BF ic A TE EE, A AY H&lt o. AEE RJE 8 
nS aR. ERE BRI SP Za, SSR EAT ER ED SS aT Se D IBI. 


local irq disable €) #lllocal_irq enable O 都 只 能 葵 止 和 使 能 本 CPU 内 的 中 断 ， 因 此 ， 并 不 能 解雇 
SMP 多 CPU 引 发 的 苋 态 。 因 此 ， 单 独 使 用 中 靳 屏蔽 通 第 不 是 一 种 值得 推荐 的 如 免 苋 态 的 方法 〈 换 句 话 说 ， 
驱动 中 使 用 local irq disable/enable O 通常 意味 着 一 个 bug) ， 它 适合 与 下 文 将 要 介绍 的 自 旋 锁 联合 使 
H- 


与 local irq disable () 不 同 的 是 ，local irq save (flags) 除了 进行 葵 止 中 断 的 操作 以 外 ， 还 保存 目前 
CPU 的 中 断 位 信息 ，local irq restore (flags) 进行 的 是 与 Jocal irq save (flags) 相反 的 操作 。 对 于 ARM 处 
硕 而 言 ， 其 实 束 是 剑 存 和 恢复 CPSR 。 


如 果 只 是 想 禁 止 中 断 的 底 半 部 ， 应 使 用 local bh disable () ， 使 能 被 local bh disable © 禁止 的 底 半 
部 应 该 调用 local bh enable () 。 


7.4 ”原子 操作 


原子 操作 可 以 保证 对 一 个 整 型 数据 的 修改 是 排他 性 的 。Linux 内 核 提 供 了 一 系列 函数 来 实现 内 核 中 的 
原子 操作 ， 这 些 函 数 又 分 为 两 类 ， 分 别针 对 位 和 整 型 变量 进行 原子 操作 。 位 和 整 型 变量 的 原子 操作 都 依赖 
于 底层 CPU 的 原子 操作 ， 因 此 所 有 这 些 函 数 都 与 CPU 架构 密切 相关 。 对 于 ARM 处 理 器 而 言 ， 底 层 使 用 
LDREX 和 STREX 指 令 ， 比 如 atomic inc O 撒 层 的 实现 会 调用 到 atomic add O ， 其 代码 如 下 : 


Re 
{ 
unsigned long tmp; 
ine resulti 
prefetchw(&v->counter) ; 
asm volatile ("@ atomic add\n" 
"s ldrex eD. Teal wn" 


add $0, $0, %4\n" 

strex Sl. w0. [eo], wi" 

teq $1, #0\n" 

bne ] 5" 

: "—&r" (result), "-&r" (tmp), "-*Qo" (v-»counter) 


; "pU (i$v—-ocounter);, "Lr" 1i) 
"eoo E 


ldrex 指 令 跟 strex 配 对 使 用 ， 可 以 让 总 线 监控 ldrex 到 strex 之 间 有 无 其 他 的 实体 存 取 该 地 址 ， 如 果 有 并 发 
的 访问 ， 执 行 strex 指 令 时 ， 第 一 个 寄存 器 的 值 被 设置 为 ] (Non-Exclusive Access) 并 且 存 储 的 行为 也 不 成 
Ij; 如 果 没 有 并 发 的 存 取 ，strex 在 第 一 个 寄存 器 里 设置 0 (Exclusive Access) 并 且 存 储 的 行为 也 是 成 功 
的 。 本 例 中 ， 如 果 两 个 并 发 实体 同时 调用 ldrex+strex， 如 图 7.6 所 示 ， 在 T3 时 间 点 上 ，CPU0 的 strex 会 执行 
失败 ， 在 T4 时 间 点 上 CPU1 的 strex 会 执行 成 功 。 所 以 CPU0 和 CPU1 之 间 只 有 CPU1 执 行 成 功 了 ， 执 行 strex 失 
败 的 CPUO 的 “teq%1，#0” 判 断 语 句 不 会 成 立 ， 于 是 失败 的 CPU0 通 过 “bne 1b” 再 次 进入 ldrex。1drex 和 和 strex 的 
这 一 过 程 不 仅 适 用 于 多 核 之 间 的 并 发 ， 也 适用 于 同一 个 核 内 部 并 发 的 情况 。 


CPUO 





Tl Idrex 


T3 





T4 


87.6 ”1ldrex 和 和 strex 指 令 


7.4.1 ” 整 型 原子 操作 
1 .设置 原子 变量 的 值 


vöid atonio set(atonmiG © 9v, int il; /* 设置 原子 变量 的 值 为 */ 
atomic t v = ATOMIC INIT(0); /* 定义 原子 变量 V 并 初始 化 为 0 * / 


2. FRA FAS Se WEL 


atomic read(atomic t *v); /* 返回 原子 变量 的 值 x / 


3. 原 子 变 量 加 / 减 


void atomic add(int i, atomic t *v); /* 原子 变量 增加 i */ 
void atomic sub(int i, atomic t *v); /* 原子 变量 减少 i */ 


4. 原 子 变 量 目 增 / 目 减 


void atomic inc(atomic t *v); /* 原子 变量 增加 工 */ 
void atomic dec(atomic t *v); /* 原子 变量 减少 ] */ 


5. 操 作 并 测试 


Lt: ATOMIC Ane and resc(atomrc- €t ”> 
ine atomic dec and crest (atomic © *v)j 
Int, atomic Sub and test (Int 2, &aLtomic Lt "vr 


上 述 操 作对 原子 变量 执行 自 增 、 目 减 和 减 操 作 后 (注意 没有 加 ) ， 测 试 其 是 否 为 0， 为 0 返回 true， 人 否 
由 返回 false。 


6. 操 作 并 人 返回 


int atomic add return (int 1, atomic t *v); 
int atonio SUD T,eturn (int 1; atomic t 7y); 
Int. AOMC Lie returni(atoumuo L 7w); 
工作 atonic deo neturnidtolrc ”> ) 7 


上 述 操作 对 原子 变量 进行 加 / 减 和 目 增 / 目 减 操作 ， 并 返回 新 的 值 。 


7.4.2 ”位 原子 操作 
1. EV. 
人 
上 述 操作 设置 addr 地 址 的 第 nr 位 ， 所 谓 设置 位 即 是 将 位 写 为 1。 
2. 清 除 位 
void clear bit(nr, void *addr) ; 
上 述 操作 清除 addr 地 址 的 第 nr 位 ， 所 谓 清除 位 即 是 将 位 写 为 0。 
3. 改 变 位 
op 
上 述 操 作对 addr 地 址 的 第 nr 位 进行 反 置 。 
4.3 
test bit(nr, void *addr); 
上 述 操作 返回 addr 地 址 的 第 nr 位 。 
5. 测 试 并 操作 位 


ie Lest. and Set Dirnt, volo addr); 
ime, test dand clear bit (nr, Void “addr)7 
int test and change biti, void addr); 


上 述 test and xxx bit (nr, void*addr) 操作 等 同 于 执行 test_bit (nr, void*addr) 后 再 执行 


xxx bit (nr, void*addr) 。 
代码 清单 7.2 给 出 了 原子 变量 的 使 用 例子 ， 它 使 得 设备 最 多 上 只 能 被 一 个 进程 打开 。 
代码 清单 7.2 ”使 用 原子 变量 使 设备 只 能 航 一 个 进程 打开 


lstatio atomic t xxx available = ATOMIC INIT(1); /* EXE TSE*/ 
2 


static int xxx Open (Struct anode “inode, struct. tile *Iilp) 
4{ 

2 

6 if (!atomic dec and test(&xxx available) ) { 

7 atomic inc(&xxx available); 

8 return - EBUSY; E EE 


2 ] 
10 
I1. return Ü; / gu */ 
123 
13 
l4SLdtlio int xxx release (struct inode “inode, struct file *f1iLp) 
1:94 
16 atomic inc(&xxx available); /* Ree */ 
LT mercury U; 
18] 
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HIED (Spin Lock) se — fi B A EA OY la I 150311 HL FR VI IIR Bo RARR T ETAETA. 
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Set) ASA. HT TE, Hr EZERRE TEL BU AT 8 764 n] B VJ IE] 3277 AI FEE 
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程序 将 在 一 个 小 的 循环 凡 重 复 这 个 “ 测 弃 并 设 征 ”操作 ， 即 进行 所 谓 的 “ 目 旋 ”， 通 俗 地 说 融和 是 "在原 地 打 
转 ”， 如 图 7.7 所 示 。 妆 目 旋 锁 的 持 有 痢 通 过 乍 前 该 变量 释放 这 个 目 诈 锁 后 ， 作 个 等 行 的 “测试 开设 普 ”操作 
器 其 调用 者 报告 锁 已 释放 。 

理解 目 旋 锁 了 最 简单 的 方法 是 把 它 作 为 一 个 变量 看 待 ， 该 变量 把 一 个 临 弄 区 标记 为 "我 当前 在 运行 ， 请 
和 等 一 会 "或 者 标记 为 “我 当前 个 在 运行 ， 可 以 被 使 用 *”。 如 果 A 执 行 里 元 自 先进 入 例 程 ， 它 将 持 有 目 旋 锁 ; 
当 B 执 行 早 元 试图 进入 同一 个 例 程 时 ， 将 获知 目 讶 锁 已 被 挂 有 ， 需 守 到 A 执行 里 元 释放 后 才能 进入 。 





图 7.7 BE 


在 ARM 体 系 结构 下 ， 目 旋 锁 的 实现 伴 用 了 ldrex 指 令 、strex 指 令 、ARM 处 理 噩 内 存 屏障 指令 dmb 和 
dsb、wfe 指 令 和 sev 指 令 ， 这 类 似 于 代码 清单 7.1 的 逻辑 。 可 以 说 既 要 你 证 排他 性 ， 也 要 处 理 好 内 和 存 屏 障 。 


Linux 中 与 目 旗 锁 相关 的 操作 主要 有 以 下 4 种 。 


1 .定义 目 旋 锁 


spunlock t lock; 


2.4] 35845 E ye eh 


Spin lock snaci lock) 


VAR Sew. BIEgock: 


3.3R S EJ XE 9 


spin lock(lock) 


ZH T ak43 Be illock, SRF IAI, NC ER, T. GREP BUE, BPE 
谋 锁 的 你 持 痢 释放 。 


spin trylock(lock) 


宏 答 试 获得 目 旋 锁 lock， 如 果 能 立即 获得 锁 ， 它 获得 锁 并 返回 true， 人 否则 立即 返回 false， 实 际 上 不 
有 再“ 在原 地 打转 ”。 


4. 释 放 目 旋 锁 
Spin _ unlock (Lock) 
该 宏 释 放 自 旋 锁 lock， 它 与 spin trylock 或 spin lock 配 对 使 用 。 


目 旋 锁 一 般 这 样 航 使 用 : 





/* 定义 一 个 自 旋 锁 * / 
Spinlock € Lock; 
spin lock init (&lock) ; 


spin lock (&lock) ; /* 获取 自 旋 锁 ， 保 护 临 界 区 */ 
"E X*/ 
spin unlock (&lock) >  /* f9k*/ 


目 旋 锁 主 要 针对 SMP 或 羊 CPU 但 内 核 可 抢占 的 情况 ， 对 于 和 单 CPU 和 和 内核 不 文 持 抢 所 的 系统 ， 目 旋 锁 退 
化 为 空 操 作 。 在 单 CPU 和 和 内核 可 抢 喇 的 系统 中 ， 目 旋 锁 持 有 期 间 中 内 核 的 抢占 将 被 荣 止 。 由 于 内 核 可 抢 白 
的 单 CPU 系统 的 行为 实际 上 很 类 似 于 SMP 系 统 ， 因 此 ， 在 这 样 的 羊 CPU 系 统 中 使 用 目 旋 锁 仍 十 分 必要 
外 ， 在 多 核 SMP 的 情况 下 ， 任 何 一 个 核 拿 到 了 目 旋 锁 ， 该 核 上 的 抢占 调度 也 暂时 禁止 了 ， 但 十 没 有 蔡 止 为 
外 一 个 核 的 抢占 调度 。 


尽管 用 了 自 旋 锁 可 以 保证 临界 区 不 受 别 的 CPU 和 本 CPU 内 的 抢占 进程 打扰 ， 但 是 得 到 锁 的 代码 路 径 在 
执行 临界 区 的 时 候 ， 还 可 能 受到 中 断 和 底 半 部 (BH， 稍 后 的 章节 会 介绍 ) 的 影响 。 为 了 防止 这 种 影响 ， 
就 需要 用 到 自 旋 锁 的 衍生 。spin_ lock O /spin unlock O 是 自 旋 锁 机 制 的 基础 ， 它 们 和 关中 断 
local irq disable €) /Ħ F Wrlocal irq enable O 、 关 底 半 部 local bh disable O / 开 底 半 部 
local bh enable () 、 关 中 断 并 保存 状态 字 local irq save O / 开 中 断 并 恢复 状态 字 local irq restore () Zi 
合 就 形成 了 整套 自 旋 锁 机 制 ， 关 系 如 下 : 

ne 
spin lock irqsave() = spin lock() + local irq save() 


spin unlock xrqrestore()- = Spin unlock() 4 local Irq restore () 
Spin Look bhi) = Spin LoOk() + Local. Dh -disabie () 


spin unlock bh() = spin unlock() + local bh enable) 


spin lock irq () ~ spin lock irqsave ©) ~ spin lock bh O 次 似 函 数 会 为 目 放 锁 的 使 用 系 好 “安全 
带 ” 以 避免 突如其来 的 中 断 驶 入 对 系统 造成 的 伤害 。 


在 多 核 编程 的 时 候 ， 如 果 进 程 和 中 断 可 能 访问 同一 片 临界 资源 ， 我 们 一 般 需 要 在 进程 上 下 文中 调用 
spin lock irqsave (2 /spin unlock irqrestore () ， 在 中 断 上 下 文中 调用 spin lock ©) /spin unlock €) ， 如 
图 7.8 所 示 。 这 样 ， 在 CPU0 上 ， 无 论 是 进程 上 下 文 ， 还 是 中 断 上 下 文 获得 了 上 自 旋 锁 ， 此 后 ， 如 采 CPU1 无 
论 是 进程 上 下 文 ， 还 是 中 断 上 下 文 ， 想 获得 同一 自 旋 锁 ， 都 必须 忙 等 待 ， 这 避免 一 切 核 间 并 发 的 可 能 性 。 
同时 ， 由 于 每 个 核 的 进程 上 下 文 持 有 锁 的 时 候 用 的 是 spin_ lock irqsave O ， 所 以 该 核 上 的 中 断 是 不 可 能 
进入 的 ， 这 避免 了 核 内 并 发 的 可 能 性 。 


驱 动工 程 师 应 齐 导 使 用 目 旋 锁 ， 而 且 在 使 用 中 还 要 特别 注意 如 下 几 个 问题 。 


1) 自 旋 锁 实 际 上 是 忙 等 锁 ， 当 锁 不 可 用 时 ，CPU 一 直 循环 执行 “测试 并 设置 ?该 锁 直 到 可 用 而 取得 该 
锁 ，CPU 在 等 竺 目 旋 锁 时 不 做 任何 有 用 的 工作 ， 仅 仅 是 等 待 。 因 此 ， 只 有 在 占用 锁 的 时 间 极 短 的 情况 下 ， 
使 用 目 旋 锁 才 是 合理 的 。 当 临 蹇 区 很 大 ， 或 有 共 圣 设备 的 时 候 ， 需 要 较 长 时 间 占 用 锁 ， 使 用 目 旋 锁 会 降低 
系统 的 性 能 。 


2) 目 旋 锁 可 能 导致 系统 死 锁 。 引 发 这 个 问题 最 稼 见 的 情况 是 递归 使 用 一 个 目 放 锁 ， 即 如 果 一 个 已 经 
拥有 某 个 目 旋 锁 的 CPU 想 第 二 次 获得 这 个 目 放 锁 ， 则 该 CPU 将 死 锁 。 





spin unlock spin unlock 


图 7.8 ”上 自 旋 锁 的 使 用 实例 


3) 在 目 旋 锁 锁 定期 间 不 能 调用 可 能 引起 进程 调度 的 函数 。 如 果 进 程 获 得 目 旋 锁 之 后 再 阻 瞪 ， 如 调用 
PK 


copy from user () ~ copy to user () , kmalloc () 和 msleep O SeeS2, Ay ge SICA TRE BA ivi o 


4) TESTE OU FATE, 2 ZUNE UOGHJCPUXEZ TAB. SRO ASRS “Fae. LG 
如 ， 在 单 CPU 的 情况 下 ， 帮 中财 和 进程 可 能 访问 同一 临界 区 ， 进 程 里 调用 Spin lock irqsave O 是 安全 
的 ， 在 中 断 里 其 实 不 调用 Spin lock O 也 没有 问题 ， 因 为 spin lock irqsave © 可 以 保证 这 个 CPU 的 中 断 


服务 程序 不 可 能 执行 。 但 是 ， 香 CPU 变 成 多 核 ，spin lock irqsave ©) AREF CISA Bl, PR 
万 外 一 个 核 吏 可 能 造成 并 及 问 题 。 因 此 ， 无 论 如 何 ， 我 们 在 中 上 断 服 务 程序 里 也 应 该 调用 spin lock O 。 


代码 清单 7.3 给 出 了 自 旋 锁 的 使 用 例子 ， 它 被 用 于 实现 使 得 设备 只 能 被 最 多 1 个 进程 打开 ， 功 能 和 代码 
清单 与 7.2 类 似 。 


代 人 担 清 单 7.3 ”使 用 目 旋 锁 使 设备 只 能 被 一 个 进程 打开 


l ant xxx Count = 07 /7* FNRI 

2 

3 Stalic ING xxx ODOnisLbPuct anode “anode, Suruct file "E1LL5) 
4 | 

E — 

6 spinlock(&xxx Lock); 

7 if (xxx count) {/* BZiT*/ 

8 spin unlock (&xxx lock); 

9 return  -EBUSY; 
10 } 
alk xxx countt+;/* 增加 使 用 计数 */ 
La spin unlock(&xxx lock); 
LS Pu 
14 return 0;/* jj */ 
133} 
16 

.Stace inl Xx release(otLruct Inode “anode, Struce tale ~ILID) 
18{ 

1:9 


20 spinlock(&xxx lock); 
21 xxx count--;/* 减少 使 用 计数 */ 


22 spin unlock(&xxx lock); 
Z9 
24 return 0; 


7.5.2 tS Ayes 
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题 的 ， 目 旋 锁 的 衍生 锁 读 与 目 旋 锁 CGrwlock) 可 允许 谈 的 并 上 友 。 读 与 目 旋 锁 是 一 种 比 目 旋 锁 粒度 更 小 的 锁 
机 制 ， 它 剑 留 了 “ 目 旋 ”的 概念 ， 但 古 在 号 操作 方面 ， 只 能 最 多 有 1 个 写 进 程 ， 在 读 操 作 方 和 面 ， 同 时 可 以 有 有 

个 讯 执行 音 元。 当然 ， 读 和 写 也 不 能 同时 进行 。 


谈 写 目 旋 锁 涉及 的 操作 如 下 。 
LE MP SACI EL Tre jt 


rwlock t my rwlock; 
rwlock init(&my rwlock); /* 动态 初始 化 */ 


2. 读 锁定 


void read lock(rwlock t *lock); 

void read lock irqsave(rwlock t *lock, unsigned long flags); 
void read lock irq(rwlock t *lock); 

void read lock bh(rwlock t *lock); 


vöid read umlock(rwlock E *lock); 

vöid read unlock Lrgrestore(rw.ock c *lock, unsigned long flags); 
void read Unlock arqirwlock © “Lock); 

void read unlock bh(rwlock t *lock); 
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read lock irqsave () ~ read lock irq (2 和 read lock bh (©) 也 分 别 是 read lock O 分 别 与 
local irq save (Ò ~ local irq disable (Ò 和 local bh disable (OO 的 组 合 ， 读 解锁 函数 
read unlock irqrestore () ~ read unlock irq () . read unlock bh ©) 的 情况 与 此 类 似 。 


4. 写 锁定 


VOI rite Lock (rwlock T De 

void write lock irqsave(rwlock t *lock, unsigned long flags); 
VOLO write LOOK arqi{(rwilock © *lock); 

void write lock bh(rwlock t *lock); 

int write trylock(rwlock = Lock); 


void write unlock(rwlock t *lock); 
vold: write unlock rrgrestore(rwlock © *Look, unsigned long flags); 


void write unlock irq(rwlock t *lock); 
void write unlock bh(rwlock t *lock); 


write lock irqsave () ~ write lock irq © ~ write lock bh O 分 别 是 write lock O 与 
local irq save () ~ local irq disable (Ò local bh disable © 的 组 合 ， 写 解锁 函数 


write unlock irgrestore () ~ write unlock irq () ~ write unlock bh ©) 的 情况 与 此 类 似 。 


在 对 共 圣 资源 进行 写 之 前 ， 应 该 先 调用 写 锁定 函数 ， 完 成 之 后 应 调用 与 解锁 函数 。 和 spin trylock © 
一 样 ，write trylock O 也 只 是 笑 试 获取 读 写 目 旋 锁 ， 不 官 成 功 失 败 ， 都 会 立即 返 回 。 


读 写 目 谍 锁 一 般 这 样 补 使 用 : 


rwlock t lock; /* gXrwlock */ 
rwlock init(&lock); /* 初始 化 rwlock */ 
/* 读 时 获取 锁 */ 

read lock(&lock}); 

TE /* 临界 资源 */ 
read unlock (&lock) ; 
/* 写 时 获取 锁 */ 

write lock arqsave (tlock, tlags); 

TA /* 临界 资源 */ 
Write UnLock rrgresctore(S&lock, tlags); 


7.$.3 ”顺序 锁 


UF Bt Cseqlock) 是 对 讯号 锁 的 一 种 优化 ， 厂 使 用 顺序 锁 ， 读 执行 蛙 元 个 会 被 写 执 行 单元 阻 星 ， 也 束 
征 说 ， 谈 执行 单元 在 与 执行 单元 对 彼 顺 序 锁 傈 护 的 共 孚 资源 进行 号 操作 时 仍然 可 以 继续 该 ， 而 不 作 等 竺 与 
换行 单元 完成 与 操作 ， 与 执行 单元 也 不 需要 等 街 所 有 读 执 行 单 元 完成 该 操作 才 去 进行 与 操作 。 但 是 ， 与 执 
行 单 元 与 与 执行 单元 之 间 仍 然 是 互 厅 的 ， 即 如 末 有 与 执行 单元 在 进行 与 操作 ， 其 他 与 执行 单元 必须 目 旗 在 
那里 ， 百 到 与 执行 单元 释放 了 顺序 锁 。 


对 于 顺序 锁 而 言 ， 尽 官 读 与 之 间 不 互相 排斥 ， 但 是 如 打 读 执行 单元 在 谈 操 作 期 间 ， 与 执行 单元 已 经 友 
生 了 与 操作 ， 那 么 ， 谈 执行 单元 必须 重新 读 取 数据 ， 以 便 确 你 得 到 的 数据 是 完整 的 。 所 以 ， 在 这 种 情况 
Po imh peN R EE E R EERI KIERA REE BA AI BE < 

fELinux NP, SAATE AK IIT REA F o 


1. 获 得 顺序 锁 


vold write seglockisecglook Lt 591); 
Int Write tryseqlock(seqlock t 7al); 
Weite seqlock irgsave (lock, flags) 
write seqlock. Irg(Lock) 

write seqlock bh(lock) 


其 中 ， 


write seqlock irqsave() = loal irq save() + write seqlock() 
Write seqlock irq() = local Irg disable) + write seglockt) 
write seq lock bh() = Local bh drsSablet) + write seqlock () 
X. d NT 
2. 释 放 顺 序 锁 


VOLO. Write sequnlock(seqlock t *5157 
write sequnlock irqrestore(lock, flags) 
write sequnlock irq(lock) 

write sequnlock bh(lock) 


cH, 


N 


write sequnlock irgrestore() = write sequnlock() + local irq restore() 
write sequnlock irq() = write sequnlock() + local irq enable() 
write sequnlock bh() = write sequnlock() + local bh enable(t) 


写 执 行 单元 使 用 顺序 锁 的 使 式 如 下 : 


write seqlock(&seqlock a); 
s 4 * SRR */ 
WEITE segunlooxtesseqlock a); 


因此 ， 对 写 执行 单元 而 言 ， 它 的 使 用 与 自 旋 锁 相 同 。 
读 执 行 单元 涉及 的 顺序 锁 操 作 如 下 。 
1. 谈 开始 


unsigned read segbegin(const seglock t *&L)3 
read seqbegin irqsave(lock, flags) 


读 执行 单元 在 对 被 顺序 锁 s1 保 护 的 共享 资源 进行 访问 前 需要 调用 该 函数 ， 该 函数 返回 顺序 锁 s1 的 当前 


Ir. FEA, 


read seqbegin irqsave() = local irq save() + read seqbegin () 


2. 重 读 


int read Segretry(const seqlock © “sl, unblrgned Xv); 
read Seqretry Lfqrestore(looE, v, LL395) 


TTA ER 7G TE Vj [8] FE IY Bis LEA EIER E Us ri 2e URL VALER BORE, FERC HERI IE 6 Ste 
作 。 如 末 有 与 操作 ， 旋 执行 单元 吏 需 要 重新 进行 谈 操 作 。 其 中 ， 


read segretry irgrestore([) — read seqretry(). + Local arg restore) 


读 执行 单元 使 用 顺序 锁 的 模式 如 下 ， 


ao: 4 
seqnum = read seqbegin(&seqlock a); 
/* SERGE */ 


] while (read seqretry(éseqlock a, segnum)); 


7.$.4” 读 -复制 -更 新 


RCU (Read-Copy-Update， 读 -复制 -更 新 ) ， 它 是 基于 其 原理 命名 的 。RCU 并 不 是 新 的 锁 机 制 ， 早 在 
20 世 纪 80 年 代 束 有 了 这 种 机 制 ， 而 在 Linux 中 古 在 开 友 内 核 2.5.43 时 引入 该 技术 的 ， 并 正式 包含 在 2.6 内 核 
中 。 


Linux 社 区 关于 RCU 的 经 典 文 档 位 于 https://www.kernel.org/doc/ols/2001/read-copy.pdf，Linux 内 核 源 代码 
DocumentationRCU/ 也 包含 了 RCU 的 一 些 讲解 。 


不 同 于 自 旋 锁 ， 使 用 RCU 的 读 端 没有 锁 、 内 存 屏障 、 尿 子 指令 类 的 开销 ， 几 乎 可 以 认为 是 直接 读 
(只 是 简单 地 标明 读 开 始 和 读 结束 ) ， 而 RCU 的 写 执行 单元 在 访问 它 的 共享 资源 前 首先 复制 一 个 副本 ， 
然后 对 副本 进行 修改 ， 最 后 使 用 一 个 回调 机 制 在 适当 的 时 机 把 指向 原来 数据 的 指针 重新 指向 新 的 被 修改 的 
数据 ， 这 个 时 机 就 是 万 有 引 用 该 数据 的 CPU 都 退出 对 共享 数据 读 操作 的 时 候 。 等 竺 适当 时 机 的 这 一 时 期 称 
为 宽 限 期 (Grace Period) 。 


比如 ， 有 下 面 的 一 个 由 struct foo 结 构 体 组 成 的 链表 : 


| 
SLEUGE List head LIG? 
int aj 
int d 

lnt x 


); 


(BUC REREA EE DUREE PART B SANI Ua. bo HIEMER ce HE Ey [HC Bi. SEAT EE 
HARA H JEM AIETE ATE Be RE BU, REPEATS $1 EL My IH] BERIT BUNT B Eo ZENE 
的 a、b 两 个 成 员 ， 完 成 后 解锁 。 而 RCU 的 思路 则 不 同 ， 它 耳 接 制造 一 个 新 的 记 挟 M， 把 N 的 内 容 复 制 给 
M， 之 后 人 在 M 上 修改 a、b， 并 用 M 来 代 佑 N 原 本 在 链表 的 位 置 。 之 后 进程 A 等 竺 在 链表 前 期 己 经 存在 的 所 
有 读 端 结束 后 《〈 即 宽 限 期 ， 通 过 下 文 说 的 synchronize reu O API 完 成 ) ， 再 释放 原来 的 N。 用 代码 来 描述 
这 个 逻辑 束 古 : 

a 


int. b; 
inr cs 


i; 
LIST HEAD (head); 


t a e me V 
p = search (head, key); 
if (p == NULL) 4 


/* Take appropriate action, unlock, and return. */ 


) 
g = kmalloc (si 72605 (*p);, GEP _ KERNEL); 
* 


quce = 37 

lrg replace 2Culep=-1li1st, &gelt:9t)j 
synchronize rcut); 

kfree (p); 


RCU 可 以 看 作 读 写 锁 的 高 性 能 版 本 ， 相 比 读 写 锁 ，RCU 的 优点 在 于 既 允 许多 个 读 执行 单元 同时 访问 
被 保护 的 数据 ， 又 允许 多 个 读 执行 单元 和 多 个 与 执行 单元 同时 访问 被 保护 的 数据 。 但 是 ，RCU 不 能 蕉 代 
读 写 锁 ， 因 为 如 果 写 比较 多 时 ， 对 读 执行 单元 的 性 能 提高 不 能 弥补 写 执 行 单 元 同步 导致 的 损失 。 因 为 使 用 
RCU 时 ， 与 执行 单元 之 间 的 同步 开销 会 比较 大 ， 它 需要 延迟 数据 结构 的 释放 ， 复 制 被 修改 的 数据 结构 ， 
它 也 必须 使 用 茶 种 锁 机 制 来 同步 并 及 的 其 他 写 执行 单元 的 修改 操作 。 

Linux 中 提供 的 RCU 操 作 包 括 如 下 4 种 。 


Laie 


Pou redo Lock() 
fou read Lock- DH) 


2. 斌 解锁 


rcu read unlock () 
rcu read unlock bh() 


使 用 RCU 进 行 读 的 模式 如 下 : 


rou read... OCR 
. . . /* 读 临 界 区 * / 
fou read UnLock) 


3. 同 步 RCU 


synchronize roul) 


该 国 数 由 RCU 写 执行 单元 调用 ， 它 将 阻塞 与 执行 单元 ， 直 到 当前 CPU 上 上 所 有 的 已 经 存在 〈Ongoing ) 
的 旋 执 行 单元 完成 读 临 界 区 ， 瑟 执行 单元 才 可 以 继续 下 一 步 操 作 。synchronize rcu O 并 不 需要 等 竺 后 续 
(Subsequent)〉 读 临界 区 的 完成 ， 如 图 7.9 所 示 。 


CPUO CPUI CPU2 


rcu read lock() 


synchronize rcu()jJE A 


rcu read unlock() rcu read lock() 


synchronize rcu0 退 出 





rcu read unlock() 


图 7.9 synchronize rcu 
探测 所 有 的 rcu read lock ©) 被 rcu read unlock O £5 RARER BJavai& zi DLR | LE. 


4. 挂 接 回 调 


word Call. qouteLtruct: rcu nea «Head, 
VON CVT UnG O rut, pou dead So 


PEZ call rcu ©) 也 由 RCU 写 执行 单元 调用 ， 与 synchronize rcu O 不 同 的 是 ， 它 不 会 使 写 执行 单元 阻 
枚 ， 因 而 可 以 在 中 断 上 下 文 或 软 中 断 中 使 用 。 访 函数 把 函数 fbnc 挂 接 到 RCU 回 调 函 数 链 上 ， 然 后 立即 返 
回 。 挂 接 的 回调 函数 会 在 一 个 视 限 期 结束 〈 即 所 有 已 经 存在 的 RCU 谈 临界 区 完成 ) 后 被 执行 。 


ES 


给 RCU 保 护 的 指针 赋 一 个 新 的 值 。 
rou Uererereneeip) 


imf Hjreu dereference O 获取 一 个 RCU 保 护 的 指针 ， 之 后 既 可 以 安全 地 引用 它 〈 访 问 它 指 问 的 区 
域 ) 。 一 般 需 要 在 rcu read lock () /rcu read unlock () 保护 的 区 则 引用 这 个 指针 ， 例 如 : 


PoU read: OCK (yy 
ie 
ii (Ar eG bean TE oenUurres) 

DIIS FOr Gach -Cuury (e; Clirg t= smap lrg ig tank) 


{ 
if (likely (e->type == KVM IRQ ROUTING MST) ) 
ret = kym set msg rnatomre(e, Kym); 
else 
ret = -EWOULDBLOCK; 
break; 


roD nego Unlock i? 
上 述 代码 取 目 Vvirt/kvmyirqg comm.cH]kvm set irq inatomic () PAA. 


Bo CCEess POLNCErP) 


读 问 使 用 rceu_access_pointer( ) 获取 一 个 RCU 剑 护 的 指针 ， 之 后 并 不 引用 它 。 这 种 情况 下 ， 我 们 只 天 
心 指 针 本 里 的 值 ， 而 不 天 心 指 针 指 问 的 内 容 。 比 如 我 们 可 以 使 用 该 API 来 判断 指针 是 寿 为 NULL。 


把 rcu_assign pointer () 和 rcu_ dereference (O 结合 起 来 使 用 ， 写 端 分 配 一 个 新 的 struct foo F, W 
始 化 其 中 的 成 员 ， 之 后 把 该 结构 体 的 地 址 赋值 给 全 局 的 gp 指针 : 


Eee 
int a; 
int D? 
Pe Ce 
); 
Struct. foo "gp = NULE; 


YS de «en apo D 

p —kmalloc(srzeot('p), GFP KERNEL); 
pa s ay 

p=>bp = 2; 

p-2G = .3; 


rcu Jase POI Ller (Gp, p 


iim VJ VA) VA Fr DC ts 


rou xeado.roecm()s 
po eu uderererenceqgp)r 
if (p != NULL) { 
dO SOMe Luin: wich p= rar pepe POr 
j 


Bou Fead unmboockti 


在 上 述 代 码 中 ， 我 们 可 以 把 写 端 rcu assign pointer O 看 成 发 布 (Publish) 了 gp， 而 读 端 
rcu dereference () 看 成 订阅 (Subscribe) 了 gp。 它 保证 读 问 可 以 看 到 recu assign pointer () 之 前 所 有 内 存 
被 设置 的 情况 〈 即 gp->a，gp->b，gp->c 等 于 1、2、3 对 于 读 端 可 见 ) 。 由 此 可 见 ， 与 RCU 相 关 的 原 语 已 经 
Py Bk T THOSE ZR VE BE Fist e P T£ BE B e 


对 于 链表 数据 结构 而 言 ，Linux 内 核 增 加 了 专门 的 RCU 你 护 的 链表 拘 作 API: 


Stalie aniline Void Jase gd eu(struce. usu ead: “new, StrucL [1st hes *head); 


该 函数 把 链表 元 素 new 插 入 RCU 保 护 的 链表 head 的 开头 。 


卫生 Re 人 ol 
SR 


APRA T list add rcu ©) ， 它 将 把 新 的 链表 元 素 hnew 添 加 到 被 RCU 保 护 的 链表 的 末尾 。 


0 


该 图 数 从 RCU 你 护 的 链表 中 删除 指定 的 链 衣 元 系 entry。 


9 靖国 的 0 二 ee 有 本 ea 


它 使 用 新 的 链表 元 素 new 取 代 旧 的 链表 元 素 old。 


LISE BOF -Cdci: entry Terresy ead) 


iZZ AA Yai ARCURI B)SEXhead, ACERT full E Def RIVA ER A, Ema A A ie 
RCUK HY BE FERRE AIBC Cünlist add rcu ©) ) 并 发 运行 。 


PER HI E m d ar PRU P s 


SUDO DOO 7 
SUcpUCUC last hesd IX; 
int a; 
Ine -D7 
Int- OF 
); 
Lider HBAD (head); 


| a ur Uu. 

p —'-kmalloc(slzeot(*p)s GEP KERNEL); 
p->a = 1; 

p.25 

p-> - 5; 


| 


链表 的 读 闹 代码 则 形 如 : 


ou reac. LoOCK()S 
LES. DOr Gach enun “rou (os eges 


} 


rou read UNLOCK) > 


前 面 己 经 看 到 了 对 RCU 你 护 


Struct el 4 

Struct Just head Ip; 
long key; 

epanLook © mutex 

int data; 

6 /* Other data fields */ 
7); 

SDEFINE RWLOCK(listmutex); 
GLT BEAD (head); 


CH. A "Gor N FS 


TILST) 
do Some Enr- WIENED ay Oe Dr pes 


{ 


链表 中 点 进行 修改 以 及 讨 加 新 布点 的 动作 ， 下 面 我 们 看 一 下 RCU 傈 护 
的 链表 删除 节点 N 的 工作 。 瑟 姗 分 为 两 个 步骤 ， 第 1 步 是 从 链表 中 删除 N， 之 后 等 一 个 宽 限 期 结束 ， 贞 释 放 
N 的 内 存 。 下 面 的 代码 分 别 用 读 写 锁 和 RCU 两 种 不 同 的 方法 来 描述 这 一 过 程 : 


lint search(long key, int *result) 


21 

FOCE- eE sp? 

4 

o read lock (GL is TMmuGex) 7 

G rst Tor seach. entry (py. chead, 
7 if (p->key == key) { 

8 *resulc -= pdala; 

9 redd unlLoek(elistmubex); 
LO Dex. 
dI } 
d. 7 


15 read UnLoOR(slprstmuLex); 
14 return 0: 


1:5. 

lint delete(long key) 

24 

2 OULUOC el p 

4 

o write Lockieltstmutex); 

Oper ror Cach entry (py Deas, 
7 if (p->key == key) { 

8 Trot del (ep SL 

9 write unlock (els tmuvex); 
LO kfree (p); 
LI Detur 3 
12 } 
l> 3 
14 write unlock(&listmutex); 
lo “retire. D. 
16} 


lp) 


lp) 


Seri Ce eL | 


2 ‘steuce. Jus weed, kp; 

3 long key; 

4 spinlock t mutex; 

S ant data; 

6 /* Other data fields */ 
Tq 


SDEFINE SPINLOCK(listmutex); 
9LIST HEAD (head); 

lint search(long key, int *result) 
Z4 

o^ GUruct «el Xp 


4 
3 PCU read JIOGRQ- 

6 dict Lor each entry routp, wbesd. Pp 4 
q 

8 


if (p->key == key) { 
"result = p-> data; 
9 pou reari unbtoski 
10 return 1; 
I ) 
12. X 


lo- “CU. Tead dgnliocst 
14 return 0; 


I5. 
lint delete(long key) 
21 
”Put el oy 
4 
T. spr Lock (elistmulex) 7 
Or suse On each-eHtrby (po; She opo 4 
7 if (p->key == key) { 
8 list del rcu(&p->lp); 
9 spin: unlock(selrsUumuatex); 
1O Synchronize rout; 
11 kires(p) 
L2 ESEUN Xy 
13 j 
14 ] 


19s pru unlocktslistmutex) 
L6 terur -07 
1 


7.6 {45 


信号 量 〈Semaphore) 征 操 作 系 统 中 最 奥 琢 的 用 于 同步 和 互 斥 的 手段 ， 信 筷 量 的 全 可 以 是 0、1 或 者 n。 
信 己 量 与 操作 系统 中 的 经 典 概 仿 PV 操 作对 应 。 


P (S): 将 信号 量 S 的 值 减 1， 即 S=S-1; 
如 果 S>0， 则 该 进程 继续 执行 ， 否 则 该 进程 置 为 等 枉 状态 ， 排 入 等 等 队列 。 
V (S): 中 将 信号 量 $ 的 值 加 1， 即 S$=S+1; 
g 如 及 S$>0， 唤 醒 队 列 中 等 竺 信号 量 的 进程 。 
Linux 中 与 信号 量 相 关 的 操作 主要 有 下 和 面 几 种 。 
LEXE FE 
下 列 代 码 定 义 名 称 为 gm 的 信号 量 : 
ER 
2. 初 始 化 信和 号 量 
人 
ZRADE ig. FEN v :EsemB TH 7Jval. 
3 HAS 
Ne 


该 国 数 用 于 获得 信号 量 sem， 它 会 导致 睡眠 ， 因 此 不 能 在 中 灯 上 下 文中 使 用 。 


Lnt down 1nterruptaible (struct semaphore: * sem); 


该 函数 功能 与 own 类似 ， 不 同 之 处 为 ， 因 为 down O 进入 睡眠 状态 的 进程 不 能 被 信号 打 断 ， 但 因为 
down interruptible C) 进入 睡眠 状态 的 进程 能 被 信号 打 断 ， 信 和 号 也 会 导致 该 图 数 返 回 ， 这 时 候 图 数 的 返回 
信 非 0。 


int down trylock(struct semaphore * sem); 


BAMA BARA r Esem, WRF ILZIAG, EMDR las 


TESSUS A a ER, DA Tit EB SCP AEA 


在 使 用 down interruptible O 获取 信号 量 


ERESTARTSYS, Zi: 


(down interruptible(&sem)) 


if 
return -ERESTARTSYS; 


5 : > Ld, Ed. 
4. 释 放 信 号 量 
void up(struct semaphore * sem) 


VAER IURE ur tEsem, ABE 


> p E 


"ULP MR DX. "EISE 


时 ， 对 返回 值 一 般 会 进 1 


JHR, AW, EE. € 


TRA, WRJEO, jay 7 Bi El- 


用 方式 和 目 旋 锁 英 似 。 与 目 旋 锁 相同 ， 只 


作为 一 种 可 能 的 互 斥 手段 ， 信 和 号 量 昌 
有 得 到 信 筷 量 的 进程 才能 执行 临界 区 人 代码。 但是， 与 目 旋 锁 不 同 的 是 ， 当 获取 不 到 信号 量 时 ， 进 程 不 会 原 
地 打转 而 是 进入 休眠 等 待 状态 。 用 作 互 太 时 ， 信 和 号 量 一 般 这 样 航 使 用 : 
进程 P1 井 程 PZ ^ ) | ee 进程 Pn 
P (S): > (S): P (S): 
临界 区 临界 区 临界 区 
V (Sj; V (S); V (S) 
Hi sg FH TE HL Fe AS Ee ER - 


由 于 新 的 Linux 内 核 倾 问 于 直接 使 用 mutex 作 为 互 斥 手段 ， 


量 ， 另 外 一 个 进程 B 执 行 up O 释放 信和 号 


信号 量 也 可 以 用 于 同步 ， 一 个 进程 A 执 行 down O tHe Ss 
量 ， 这 样 进程 A 束 同步 地 等 每 了 进程 B。 其 过 程 类 似 : 
进程 P1 进程 P2 
代码 区 C1; P(S); 
V(S); 
代码 区 C2; 
言 号 量 则 较为 合适 。 因 为 生产 者 /消费 者 问题 也 


此 外 ， 对 于 关心 具体 数值 的 生产 者 /消费 痢 问 题 ， 使 用 


征 一 种 同步 问题 。 


尺 害 信和 写 量 已 经 可 以 实现 互 太 的 功能 ， 但 十“ 正 守 ”的 mutex 在 Linux 内 核 中 还 是 真实 地 存在 看 。 
下 面 代码 定义 了 名 为 my _ mutex 的 互 斥 体 并 初始 化 它 : 


struct mutex my mutex; 
mutex init (émy mutex) ; 


FIBI A ER CFS RR A: 


VOLO Imübex Lock(Struce mutex *~lock) 7 
int mutex lock znterrüptible(struct mutex = Lock); 
int mutex UtryLock(struct mutex “lock); 


mutex lock (Ù) mutex lock interruptible © AVX #J#ldown ©) down trylock O 的 区 别 完全 一 
致 ， 表 者 引起 的 睡眠 不 能 和 被 信 吕 打 断 ， 而 后 者 可 以 。mutex trylock O Hi T zv fmutex,. I RAA 8 
mutex 时 不 会 引起 进程 睡 虐 。 


下 列 函 效用 于 释放 互 斥 体 : 


VOLO are unLock(tstruct mutex “Lock? 


mutex I) Ha SBA 8. FRA er ÁN: 


x ÆXmutex */ 
x 初始 化 mutex */ 
* 获取 mutex */ 

* 临界 资源 * / 

x 释放 utex */ 


struct mutex my mutex; 
mutex init (&my mutex); 
mutex lock (&my mutex); 


DSS TO 


mutex unlock(&my mutex); 


H JEDN E, Fe M XE RIED HL Fe Ine] Ze ATE, TERE ERT, IIIA UMS ee Be? 选择 
E FS xs Mr AT DX ESI TE Ju RU s E ERAS S e 


JJ EE ER X ESL. AR AA es Y AERIS BREF, BSE OMT Jr. TEAR RAS 
SEIE, AS Rub RUESTATEBURUSCT TE, m HRH o PA ie BUR ERE FEC 


HERRER, HIT 2 ERE ZA OUR AS, EAT EEA, BENAT EET E LÀ 
进程 的 里 份 ， 代 表 进 程 来 搜 和 村 资源 的 。 如 来 苋 争 失 败 ， 会 友 生 进程 上 下 文 切 换 ， 妆 前 进程 进入 睡 虑 状态 
CPU 将 运行 其 他 进程 。 符 于 进程 上 下 文 切换 的 开销 也 很 大 ， 因 此 ， 只 有 妆 进 程 占用 资源 时 间 较 长 时 ， 用 互 
奢 体 才 是 较 好 的 选择 。 


当 所 要 保护 的 临 守 区 芒 问 时 间 比 较 短 时 ， 用 目 旋 锁 是 非 音 方便 鸭 ， 因 为 它 可 下 省 上 下 文 切换 的 时 间 。 


但 征 CPU 得 不 到 目 旋 锁 会 在 那里 衬 欧 直到 其 他 执行 单元 解锁 为 止 ， 所 以 要 求 锁 不 能 在 临 守 区 里 长 时 间 仍 
留 ， 侣 则 会 降低 系统 的 效率 。 


由 此 ， 可 以 总 结 出 目 旋 锁 和 互 斥 体 选 用 的 3 项 原则 。 


1)〉 妆 锁 个 能 饭 獒 取 人 到 时 ， 使 用 互 太 体 的 开销 古 进程 上 下 文 切换 时 间 ， 使 用 目 旋 锁 的 开销 是 等 行 获取 
HIED (由 临界 区 执行 时 间 决 是)。 石 临 寞 区 比较 小 ， 宜 使 用 目 讶 贷 ， 厂 临 蹇 区 很 大 ， 应 使 用 互 斥 体 。 


2) 互 帮 体 所 你 护 的 临界 区 可 包含 可 能 引起 阻 暑 的 代码 ， 而 目 旋 锁 则 绝对 要 避免 用 来 保护 包含 这 样 代 
人 码 的 临界 区 。 因 为 阻 瑟 意味 看 要 进行 进程 的 切换 ， 如 果 进 程 锐 切换 出 去 后 ， 故 一 个 进程 企图 获取 本 目 旗 
Bil, MMR ACH 


3) ER VTE TP ERE EPC, TAC, SR RIP IR] ARS PER its EF BP Tee RAE, ME 
EL FR VSAM ELE SCA IH] RBEXETEH He. TX. WR ERE ES, JA pea mutex_trylock O 方式 
进行 ， 不 能 获取 就 立即 返回 以 避免 阻塞 。 


7.8 EKE 


Linux 提 供 了 完成 量 〈Completion， 关 于 这 个 名 词 ， 至 今 没 有 好 的 翻译 ， 
用 于 一 个 执行 日 元 等 生态 一 个 执行 单元 执行 完 条 事 。 
Linux 中 与 完成 量 相 关 的 操作 主要 有 以 下 4 种 。 


1 .定义 完成 


IT 


下 列 代 码 定 义 名 为 my completion] 56 Es: 


struct Completion. my completion; 
2. 初 始 化 完成 量 
下 列 代 人 码 初 始 化 或 者 重新 初始 化 my completion 这 


init completion(&my completion); 
reinit completion(&my completion) 


3. 等 待 完成 量 
下 列 函 数 用 于 等 竺 一 个 完成 星 被 唤醒 : 


VOoLld Walt, fOr Completion (Struce: Completion 7e) 


FB P3 ER BC T ETE E s 


void complete(struct completion *c); 
youd. complete ALLIS UCE completron ~C)? 


HI 


Cc 


者 只 唤醒 一 个 等 竺 的 执行 单元 ， 后 者 释放 所 有 等 竺 同一 完成 量 的 执行 单元 。 
完成 量 用 于 同步 的 流程 一 般 如 下 : 


进程 P1 进程 P2 
代码 区 C1; 
complete(&done); 


代码 区 C2; 


wait for completion(&done); 


笔 首 将 其 详 


个 完成 量 的 值 为 0《〈 即 没有 完成 的 状态 ) 


7.9 ”增加 并 发 控制 后 的 globalmem 的 设备 驱动 


在 globalmem O 的 读 写 函数 中 ， 由 于 要 调用 copy from user () 、copy to user (O 这 些 可 能 导致 阻 
ZEN PAL, IEA BECERRA ee, EA EE. 


BK CIEI 2J tae Se ce Pr HIS] EU EE .— BR AS SS FB Ee ee A, KE, Gags 
单 7.4 那 样 修改 globalmem dev WAH MX, FETE ea RZ athe Bim. OS 7S PT 


不 。 
代码 清单 7.4 ”增加 并 发 控制 后 的 globalmem 设 备 结构 体 


LStructc grobalmem dey 4 


2 struct cdev cdev; 

2 unsigned char mem[GLOBALMEM SIZE]; 
4 struct mutex mutex; 

OF 


(MESSRS HIRIEN fa HY globalmem wy && FAI) IRIN PK BL 


lotgLtro Int init globalmem inlt(voxe) 


3 ant ret; 
dev t devno = MKDEV(globalmem major, 0); 


4 
5 
6 if (globalmem major) 
2 
8 


Pet = register chidev reglon(devno, LI, "globalmem")5; 
else { 

9 pet = alloc chrdev reoroni(isdevno, 0, Il, "globarlmen"); 
10 globalmem major = MAJOR(devno); 
11 } 
12 if (ret < 0) 
La return Tet: 
14 


l5  oglobalmen devp = kzalloc(sizeof(strucc globalmem dev); GEP BERNEL)Sj 
16 if (!globalmem devp) { 


17 ret = -ENOMEM; 

18 goto fail malloc; 
19. } 

20 


21 mutex init(&globalmem devp->mutex) ; 
22 globalmem setup cdev(globalmem devp, 0); 
23 TELULN U; 


290 Iani: malloc: 

20 Hureglster -chrdevy regron(devno, 19; 
27 3rturim reri 

28} 

29moduls. xnibiglooalmem.-xnizc) 


在 访问 globalmem dev 中 的 共享 资源 时 ， 需 先 获取 这 个 互 斥 体 ， 访 问 完成 后 ， 随 即 释放 这 个 互 斥 体 。 
驱动 中 新 的 globalmem 斌 、 写 操作 如 代码 清早 7.6 所 示 。 


代码 清单 7.6 ”增加 并 发 控制 后 的 globalmem 斌 、 与 操作 


LSlatic 2 
2 Loft © * ppos) 

24 

4 unsigned long p = *ppos; 

5 unsigned int count - size; 

6 int ret = 0; 


7 

8 

9 
10 
TT 
12 
13 
14 
to 
16 
17 
18 
Hes 
20 
21 
22 
23 
24 
Zo 
26 
Ad 
28 
PAS 
30 
31 
22 
33 
34 
SE 
205 
3 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
al 
vv, 
Do 
54 
Bu 
96 
Du 
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代码 清单 7.7 增加 并 发 控制 后 的 globalmem 设 备 驱 动 ioctl C) 


1 
2 
3 


struct globalmem dev *dev 


Irlpecprivate Gata, 


if (p >= GLOBALMEM SIZE) 
return O; 
Lt (Count > GLOBALMEM SIZE - p) 
count = GLOBALMEM SIZE = p} 
mutex. lock (édev-—>mutex) ; 


Lr (COpy tO ser (bur, count)) 1 
ret -EFAULT; 

} else | 
*ppos += count; 


ret count; 


dev->mem + P, 


printk(KERN INFO "read $u bytes(s) from @lu\n", 


) 
inutex unlooRlegev-omutex); 


return ret; 


j 


Static Goize 1 globalmem rice (Struct tile "*LLLD, 
size. Tt Size; LOPE t * DPOS) 
{ 
unsigned long p 
unsigned int count 
int ret = 0; 
struct globalmem dev *dev 


^DDOST 
size; 


rrlpe-e?private data; 
ir (p >= GLOBALMEM SIZE) 
return 0; 
(count > GLOBALMEM SIZE = m) 
count GLOBALMEM SIZE = p; 


I 


mutex lock(&dev-»mutex); 


if (COpy Tron user (dev—-omem + p; but; Ccounc):) 
ret =EFAULT} 

else { 
*ppos += Count; 


ret count; 


Print kh (KERN INFO "written $u bytes (Ss) 


} 
mutex unlock (&dev->mutex) ; 


return ret; 


} 


BR f globalmemhj ie. SERVE ZI, WRN. 5 
， 也 会 


Stacie Long globalmem LoOLL(SLEUCL tile. *rilp,; 
unsigned long arg) 


{ 


struct globalmem dev ^dev = Llp- private data; "ES 
switch (cmd) { 
Case MEM CURAR: 
mutex lock (&dev->mutex) ; 
memset (dev->mem, 0, GLOBALMEM SIZE); 
mutex unlock(&dev-»mutex); 
printk(KERN INFO "globalmem is set to zero\n"); 
break; 
default: 
return -—-BEINVAL; 
} 
return 0; 


const char 


from 2u n", 


Count, 


COUunL, 


与 的 同时 ， 


导致 全 局 内 存 的 寓 乱 ， 因 此 ，globalmem ioctl C) E 


unsigned int cmd, 


u eet 


p); 


user 


álli 


* NI. 


p); 


L1, E43, 


7 EH. o 


源 访 问 结束 后 释放 信号 


另 一 个 执行 单元 执行 MEM CLEAR IO 控制 
函数 也 需 被 重 写 ， 如 代码 清单 7.7 所 示 。 


pA BL 


a 


增加 并 发 控制 后 globalmem 的 完整 驱动 位 于 本 书 虚 拟 机 的 例子 /kernel/drivers/globalmem/ch7 目 录 下 ， 其 
使 用 方法 与 第 6 半 globalmem 驱 动 在 用 户 空 间 的 验证 一 狼 。 


7.10 总结 


4^ —H 


FF RAM SEAS) IZ FETE, PIT BRC. BIERE HIERN EAA ERREA IRI BUE. P r BE CTR 
> BEAM ASS (EA, JER BRE JA BEET YA BET, AE ee A A A I AZ o 


A ne ise SF BCR, ESATA AN 0 VERA SE, TAC Bee iE AUN RX 7) AR AS IOV Im EK PAE, nJ 
VA Fl FACE TIL o 


PEE Linuxi IKa HH IJ BH.2& 5; dE BH 3ET/O 
As 


LE SERIE BEL SEO FE: WSR PAPAS EER, CHI I DL SH SEF PPD e f T 
问 方式 。 


S.1-H UPS fF pHH3ERIJEBHSEUORJ p], HRE f SCHREHSEUORBJSS REA VU, EL fEglobalfifovx d Jp 
ay Pie AUX BR SEL/O RE JZG 3, FET f HP E eee. 


8.2 p UPS f Ww (Poll) 操作 有 的 概念 和 编程 方法 ， 轮 询 可 以 帮助 用 己 了 解 是 任 能 对 设备 进行 
ZG IR 2E VT In] e 


8.3 节 讲解 在 globalfifo 中 增加 轮 询 操作 的 方法 ， 并 使 用 select、epoll 在 用 户 空 间 进行 了 验证 。 


8.1 ASE 5 4ESASEV/O 


BAZE PRE ETA TED WS PRFID, AA HERA PRU. WEEE RE E Pv Ae AY TRTEHZRTE RH ET TR 
lE. BCE REIN EPRI A HENRI AS, BOM Ved BE a HIST A PEE. LBS EN RP AE © TM AFP SERRE EY 
EIEE REITA REN, FAEERE, CRAKS, BAMPMAW, AeA DBE ERIE AIE. 


驱动 程序 通常 需要 提供 这 样 的 能 力 : 当 应 用 程序 进行 read O . write O ASU, Ace oF 
源 不 能 获取 ， 而 用 户 又 名望 以 阻塞 的 方式 访问 设备 ， 驱 动 程序 应 在 设备 驱动 的 xxx_read O 、 
xxx write〈) 等 操作 中 将 进程 阻塞 直到 资源 可 以 获取 ， 此 后 ， 应 用 程序 的 read O ~ write O 等 调用 才 返 
器 ， 整 个 过 程 仍然 进行 了 正确 的 设备 访问 ， 用 户 并 没有 感知 到 ; 大 用 户 以 非 阻 窜 的 方式 访问 设备 文件 ， 则 
当 设 备 资 源 不 可 获取 时 ， 设 备 驱 动 的 xxx_read O ~ xxx write () 等 操作 应 立即 返回 ，read O 、 
write O 等 系统 调用 也 随即 被 返回 ， 应 用 程序 收 到 -EAGAIN 返 回信 。 


如 图 8.1 所 示 ， 在 阻 窟 访问 时 ， 不 能 获取 资源 的 进程 将 进入 休 虐 ， 它 将 CPU 资 源 “ 礼 让 ”给 其 他 进程 。 
因为 阻塞 的 进程 会 进入 休眠 状态 ， 所 以 必须 确保 有 一 个 地 方 能 够 唤醒 休眠 的 进程 ， 人 否则 ， 进 程 就 真 的 “ 寿 
终 正 究 ”" 了 。 唤 醒 进 程 的 地 方 最 大 可 能 发 生 在 中 断 里 面 ， 因 为 在 硬件 资源 获得 的 同时 往往 伴随 着 一 个 中 
上 断 。 而 非 阻塞 的 进程 则 不 断 尝 试 ， 直 到 可 以 进行 IO。 


read()/write() 返回 读 写 的 
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图 8.1  BH3E 5 JEPH3EI/O 


代码 清单 8.1 和 8.2 分 别 污 示 了 以 阻塞 和 非 阻 塞 方式 谈 取 串口 一 个 字符 的 代码 。 前 者 在 打开 文件 的 时 候 
没有 O_NONBLOCK 标 记 ， 后 者 使 用 O_ NONBLOCK 标 记 打 开 文 件 。 


代 但 清单 8.1 阻塞 地 读 串 口 一 个 字符 


char bur; 
fd = open("/dev/ttyS1", O RDWR); 


res = read(fd,&buf,1); /* “SOLARMAN RE */ 
if(res--1) 
preinprotsoocium". but); 


代 但 清单 8.2 ” 非 阻 蜜 地 读 串 口 一 个 字符 


char Dur; 
fd = open("/dev/ttyS1", O RDWR| O NONBLOCK); 


while(read(fd,&buf,1)!-1) 
continue; /* 串口 上 无 输入 也 返回 ， 因 此 要 循环 党 试 读 取 串 口 */ 
和 


除了 在 打开 文件 时 可 以 指定 阻 赛 还 是 非 阻 塞 方式 以 外 ， 在 文件 打开 后 ， 也 可 以 通过 ioctt O 和 
fentl O 改变 读 写 的 方式 ， 如 从 阻塞 变更 为 非 阻塞 或 者 从 非 阻塞 变更 为 阻塞 。 例 如 ， 调 用 fcntl (fd, 
F SETFL. O NONBLOCKO 可 以 设置 亿 对 应 的 IO 为 非 阻 宪 。 


8.1.1 等待 队 列 


在 Linux 驱 动 程 序 中 ， 可 以 使 用 等 待 队 列 〈Wait Queue) 来 实现 阻塞 进程 的 唤醒 。 等 待 队 列 很 早 就 作为 
一 个 基本 的 功能 里 位 出 现在 Linux 内 核 里 了 ， 它 以 队列 为 基础 数据 结构 ， 与 进程 调度 机 制 罕 密 结合 ， 可 以 
用 来 同步 对 系统 资源 的 访问 ， 第 7 草 中 所 讲述 的 信号 量 在 内 核 中 也 依赖 等 竺 队列 来 实现 。 


Linux 内 核 提 供 了 如 下 关于 等 每 队列 的 操作 。 
1 .定义 “等 竺 队列 头 部 ” 
wait queue head t my queue; 
wait queue head té wait queue head 结构 体 的 一 个 typedef。 
2. 初 始 化 “等 竺 队列 头 部 ” 
init waikqueue head(&my queue); 
而 下 面 的 DECLARE WAIT QUEUE HEAD O 宏 可 以 作为 定义 并 初始 化 等 每 队列 尖 部 的 “快捷 方式 ”。 
DECLARE WAIT QUEUE HEAD (name) 
3. 定 义 等 每 队列 元 系 
DECLARE WAITOUEUE (name, tsk) 
该 宏 用 于 定义 并 初始 化 一 个 名 为 name 的 等 每 队列 元 系 。 
4. 浇 加 / 移 除 等 竺 队列 


void add wait queue(wait queue head t *q, wait queue t *wait); 
void remove wait queue(wait queue head t *q, wait queue t *wait); 


add wait queue O HI T-FESSHREBA 976 Be waits JH 8 Sg BA A] Sab Fa I Bu EXER. TTD 
remove wait queue O 用 于 将 等 每 队列 元 系 wait 从 由 q 头 部 指 问 的 链表 中 移 除 。 


5. 等 待 事件 


wait event interruptible (queue, condition) 
wait event timeout (queue, condition, timeout) 


wait event (queue, condition) 
wait event interruptible timeout (queue, condition, timeout) 


等 生 第 1 个 参数 queue 作 为 等 竺 队列 头 部 的 队列 被 唤醒 ， 而 且 第 2 个 参数 condition 必 须 满 足 ， 人 否则 继续 
SHE. wait event () 和 wait event interruptible CO 的 区 列 在 于 后 者 可 以 和 概 信 号 打 断 ， 而 前 者 不 能 。 加 上 
_ftimeout 后 的 宏 意 味 痢 阻 堵 等 竺 的 超时 时 间 ， 以 jifty 为 单位 ， 在 第 3 个 参数 的 timeout 到 达 时 ， 不 论 condition 
AERE. 3. 


6. 唤 醒 队 列 


void wake up(wait queue head t *queue); 
void wake up interruptible (wait queue head t *queue); 


上 述 操作 会 唤醒 以 queue 作 为 等 竺 队列 头 部 的 队列 中 所 有 的 进程 。 


wake up Ò 应 该 与 Wait event () 或 wait event timeout () 成 对 使 用 ， 而 wake up interruptible (Ò ll 
应 与 wait event interruptible () 或 wait event interruptible timeout ©) 成 对 使 用 。wake up © 可 唤醒 处 于 
TASK INTERRUPTIBLE 和 TASK UNINTERRUPTIBLE 的 进程 ， 而 wake up interruptible () 只 能 唤醒 处 于 
TASK INTERRUPTIBLE 的 进程 。 


7. 在 等 竺 队列 上 睡 虐 


sleep On (wait queue head t *q Jy 
ipterrüptrible sleep on(warlt queue head t. *"q J; 


sleep on O 函数 的 作用 就是 将 目前 进程 的 状态 置 成 TASK_UNINTERRUPTIBLE， 并 定义 一 个 等 每 队 
列 元 系 ， 之 后 把 它 挂 到 等 竺 队列 头 部 q 指 同 的 双 同 链表 ， 直 到 资源 可 获得 ，q 队 列 指 同 链接 的 进程 被 唤 
We 


interruptible sleep on O sleep on〈) 畏 数 闫 似 ， 其 作用 是 将 目前 进程 的 状态 置 成 
TASK INTERRUPTIBLE， 并 定义 一 个 等 待 队列 元 素 ， 之 后 把 它 附 属 到 q 指 同 的 队列 ， 直 到 资源 可 获得 q 
指引 的 等 竺 队列 被 唤 醒 ) 或 者 进程 收 到 信号。 


sleep on O 函数 应 该 与 Wake up ©) 成 对 使 用 ，interruptible sleep on O M25 
wake up interruptible () 成 对 使 用 。 


代码 清单 8.3 误 示 了 一 个 在 设备 张 动 中 使 用 等 竺 队列 的 模版 ， 在 进行 写 IO 操作 的 时 候 ， 判 断 设 备 是 合 
AS, WRAS HANO, JERE ERR IF EEC DISS AE JI 


USI 8.3 在 设备 张 动 中 使 用 等 待 队列 


lotatro SeLZe. D SX Weive( struct. 二 LE Gono Chan “bulrer, size t Counc, 

2 dOll © *DpOS) 

94 

J 

5 DECLARE WAITQUEUE (wait, current); /* 定义 等 待 队列 元 素 */ 
6 add wait queue(&xxx wait, &wait); /* 添加 元 素 到 等 待 队列 */ 


8 /* 等 待 设备 缓冲 区 可 写 */ 


9 do { 
10 avail = device wEIILSODLIGet. e); 
11 if (avail < 0) { 
12 if (file->f flags &O NONBLOCK) { /* 非 阻塞 * / 
13 ret = -EAGAIN; 
14 GOLO out; 
1:5 ) 
16 | Set current state(TASK INTERRUPTIBLE); /* 改变 进程 状态 */ 
17 schedule (); /* 调度 其 他 进程 执行 */ 
18 if (signal pending(current)) { /* 如 果 是 因为 信号 唤醒 */ 
1:9 ret =  -ERESTARTSYS; 
20 goto Ut; 
2l } 
22 } 
2. ) while (avail « 0); 
24 


25b  /* 写 设备 缓冲 区 */ 
0 


24. OUL 

28 remove wait queue(&xxx wait, &wait); /* 将 元 素 移 出 XXX Wait 指引 的 队列 */ 
29 set current state (TASK RUNNING); /* 设置 进程 状态 为 TASK RUNNING */ 
SD TLE TeL; 

313 


读 懂 代 码 清单 8.3 对 理解 Linux 进 程 状态 切换 非常 重要 ， 所 以 提请 读者 反复 阅读 此 段 代 码 (尤其 注意 其 
中 黑体 的 部 分 ) ， 直 至 完全 领悟 ， 几 个 要 点 如 下 。 


1) WREIDE CO NONBLOCK VE E » WII, E BaÓSRIBI-EAGAIN". 


2) 对 于 阻塞 访问 ， 会 调用 ”set current state (TASK INTERRUPTIBLEO 进行 进程 状态 切换 并 显示 通 
过 “schedule ©) "调度 其 他 进程 执行 。 


3) 醒 来 的 时 候 要 注意 ， 由 于 调度 出 去 的 时 候 ， 进 程 状 态 是 TASK INTERRUPTIBLE, BU? S£ BEER. 
所 以 唤醒 它 的 有 可 能 是 信号 ， 因 此 ， 我 们 首先 通过 signal pending (current) 了 解 是 不 是 信号 唤醒 的 ， 如 果 
fe, MENR [BI“-ERESTARTSYS”. 


DECLARE WAITQUEUE, add wait _ queue 这 两 个 动作 加 起 来 完成 的 效果 如 图 8.2 所 示 。 在 
wait queue head tH ANERE, We X Await queue 元 系 伏 插入 ， 而 这 个 新 插入 的 元 系 绑 定 了 一 个 
task struct《 当 前 做 xxx write 的 current， 这 也 是 DECLARE WAITQUEUE 使 用 “current” 作 为 参数 的 原因 ) 。 


aces 
-+ = 
- ™ 







i | task struct task_struct 


- - 
Vue 








E task task i 
prev prev prev prev 


next next next next 


lock flag func flag func flag func 


wait queue head t 


autoremove wake function () default wake function() 


K|8.2 wait queque head t. wait queque 和 task struct H WIR Z 


wait queue 





wait queue wait queue 


8.1.2 ” 文 持 阻 奢 操作 的 globalfifo 设 备 豫 动 


现在 我 们 给 globalmem 增 加 这 样 的 约束 : 把 globalmem 中 的 全 局 内 存 变 成 一 个 FIFO， 只 有 当 FIFO 中 有 
数据 的 时 候 《〈 即 有 进程 把 数据 写 到 这 个 FIFO 而 且 没 有 被 读 进 程 读 空 》， 读 进程 才能 把 数据 读 出 ， 而 且 读 
取 后 的 数据 会 从 globalmem 的 全 局 内 存 中 被 拿 挥 ; 只 有 当 FIFO 不 是 满 的 时 《“ 即 还 有 一 些 空间 未 被 写 ， 或 写 
满 后 被 读 进 程 从 这 个 FIFO 中 读 出 了 数据 ) ， 写 进程 才能 往 这 个 FIFO 中 写 入 数据 。 


现在 ， 将 globalmem 重 命名 为 “globalfifo”， 在 globalfifpe 中 ， 读 FIFO 将 唤醒 写 FIFO 的 进程 〈 如 果 之 前 
FIFO 正 好 是 满 的 ) ， 而 写 FIFO 也 将 唤醒 读 FIFO 的 进程 《如果 之 前 FIFO 正 好 是 空 的 ) 。 首 先 ， 需 要 修改 设 
备 结构 体 ， 在 其 中 增加 两 个 等 竺 队列 头 部 ， 分 别 对 应 于 谈 和 与 ， 如 代码 清单 8.4 所 示 。 


代码 清单 8.4 _ globalfifo 设 备 结构 体 


ie 

2 struct cdev cdev; 

3 Unsigned int Currenc len; 

4 unsigned char mem[GLOBALFIFO SIZE]; 
5 struct mutex mutex; 

6 wait queue head t r wait; 

7 wait queue head t w wait; 

8 


by 


与 globalfifo 设 备 结构 体 的 另 一 个 不 同 是 增加 了 了 current len 成 员 以 用 于 表征 目前 FIFO 中 有 效 数 据 的 长 
BE. current lenS T OM UK FIFO2, current len 等 于 GLOBALFIFO SIZE 4 FIFO} 


IX BY AP S Rr BA, n] 3E SE i CE V e D JE E PRA a] init waitqueue head (©) 被 和 初始化， 新 的 设备 
JC p E UE BX ER OO US 8.5 AIT AN o 


代码 清单 8.3  elobalfifoi Fe I5 TR EJ aX ER] AL 


PStarie ane sano globsLbbsro myctvord) 
Zu 
3 int ret; 
dev t devno = MKDEV(globalfifo major, 0); 


4 
5 
o Xf (globalrifo major) 
7 
8 


rot = pegrister obrdev region (deyvno, Ly "globalrito")s 
else { 
9 rer e alloc ochroev regiloni(iedevuo, 0; ly "globalblito")7 
10 globalfifo major - MAJOR (devno); 
11 } 
12 if (ret < QO) 
13 return ret; 
14 


15. global iro devi = kzalloctsizeor (struct Globalfito. dev); Grr. KERNEL); 
16 xL (iglobalrico devp) 1 


UM ret = -ENOMEM; 

18 goto fail malloc; 

195 f 

20 

zl  globalrifo setup cdev(gloDalrilro devp, 0); 
2 


22 Mucex init (éqlobaltito devp=>mutex); 
24 init waitqueue head(&globalfifo devp-»r wait); 
25 init waitqueue head(&globalfifo devp->w wait); 


2] return O0; 


Zt arr medlous. 

9D. unregister chrdev Tregronidevnoy d 
Sl Peturi Set; 

32] 

3Somogule- mnrtigrobedrLLo mec); 


Ve BE BEE is IE, ERA mI Me BE globalfifo devp->w_waithi# 7), mE 5 HEE 
中 唤醒 globalfifo devp->r wait， 如 代码 清单 8.6 所 示 。 


代码 清单 8.6 ”增加 等 每 队列 后 的 globalfifo 读 写 函 数 


人 
2 S349 d Countea “OEE D -oppos) 
9d 


4int ret; 

ostruct globalillo dev “dey = CILP private data; 
6DECLARE WAITQUEUE(wait, current); 

7 

omutex lock (&dev->mutex) ; 

2add wait queue (&dev->r wait, &wait); 


10 

plwHLlLe.q(devescusregnt Len == U 4 

12 if (Lilp=>f flags &.O NONBLOCK) 1 

LES ret = -EAGAIN; 

14 goto uut; 

LS } 

16 SEC Current state (TASR INTERRUPT IBLE) 4% 
INE. mutex unlock (&dev->mutex) ; 

18 

19 schedule () ， 

20 LE (sto ives. Pending (Current) i 

24 ret ‘= =ERESTARTSY o7 

22 Goto outZ? 

25 } 

24 

Zo mutex lock (&dev->mutex) ; 

26 } 

24 

Zo. IOOUnel deve Current en) 

29 gount -S gev- current len; 

30 

SIL XOODY EO USer(oub5;-devsnem; Coumb) “i 
92 ret = -EFAULT; 

Fo GOLO Gut? 

34} else { 

39 Injemcpytdev- mem, -ougeveonem F count, —devarcurrent: len = -Count) > 
35 deve Currene en ==: Count; 

Ou printk(KERN INFO "read $d bytes(s),current len:%d\n", COUN, 
33 deveocurrent len): 

39 

40 wake up interruptible(sdev-»2w wait); 
41 

42 ret = Gouünt? 

43} 

44 out: 

45mutex unlock (&dev->mutex) ;; 

46 out2: 


4‘iremove wait queue (&dev->w wait, &wait); 

48set current state(TASK RUNNING); 

49return ret; 

50] 

od 

Sao Ca TOOS LoglobDelrrto wriite(sULbuegb Elle FEL; const char oer pur 
53 本 ie LOLL S IPLOS) 

54 { 

oOoStrPucut globali rro dev “dev = .FILO => private date; 
Dont Lees 

39 7DECLARE WAITQUEUE (wait, Curren t)-* 

58 

o9mutesx lock (&édevi=r>mucex); 

6Qadd wait queue (é&dev->w wait, &wait); 


61 

o2zwhile (dev=->current.lén == GhLOBALFIRO SIZE). 1 
63 Lt (EL lags: tO NONBLOCK) 1 

64 ret = -EAGAIN; 

65 goto out; 

66 } 

67 — Set Current stave (TASK INTERRUPT IBIE) 7 
68 


69 mutex unlock (&dev->mutex) ; 


11 schedule(); 

Ta Dr {etgnal pending (Current) i 

T3 rec = —ERBROTARISYSS 

74 Gono: -OUuLZ; 

Ps } 

76 

Jy mutex lock(&dev-»mutex); 

78} 

79 

SULT. (count v GLHLOBALEIFNO SLAE = ey >0urtenE Len) 
ol count = GhOBALELFO SIZE deve cunsrent. Len, 
82 

S3Lr (Copy: Tron user(dev- men: + dev- Current. len, ur; Cont) 4 
84 ret = -EFAULT; 

85 goto cout; 

86} else { 

87 devs CUr rent len Fe COUN 

88 prinutk(KERN INFO: "written pa bytes(s),current len:%d\n", (Ord. 
89 Oev=> Cur rem: Ben 

90 

9 wake- up interrüuptiDle(sdeve sr warct 

92 

93 ret = count; 

94 } 

95 

96: Out 

97mutex unlock (é&dev->mutex) ;; 

S O- OUr 


99remove wait queue(&dev-»w wait, &wait); 
L00Set- current stave (TASK RUNNING); 
lülreturn ret: 
102] 


globalfifo read C) 通过 第 6 行 和 第 9 行将 自己 加 到 了 r_wait 这 个 队列 里 面 ， 但 是 此 时 恋 的 进程 并 未 睡 
眼 ， 之 后 第 16 行 调用 ”set current state (TASK INTERRUPTIBLE) 时 ， 也 只 是 标记 了 task struct 的 一 个 小 
度 睡 眠 标记 ， 并 未 真正 睡 卢 ， 直 到 第 19 行 调用 schedule() ， 读 进程 进入 睡眠 。 进 行 完 读 操 作 后 ， 第 40 行 
调用 wake up interruptible (&dev->w_wait) 唤醒 可 能 阻 于 的 与 进程 。globalfifo_ write O 的 过 程 与 此 类 
ive 


关注 代码 的 第 17 行 和 69 行 ， 无 论 是 读 函 数 还 是 写 函 数 ， 进 入 schedule〈() 把 自己 切换 出 去 之 前 ， 都 主 
动 释放 了 互 斥 体 。 原 因 是 如 果 读 进程 阻塞 ， 实 际 意 味 着 FIFO 空 ， 必 须 依赖 写 的 进程 往 FIFO 里 面 写 东西 来 
唤醒 它 ， 但 是 写 的 进程 为 了 与 HIFO， 筷 也 必须 全 到 这 个 互 斥 体 来 访问 FIFO 这 个 临界 资源 ， 如 条 读 进 程 把 
自己 调度 出 去 之 前 不 释放 这 个 互 斥 体 ， 那 么 读 写 进程 之 间 就 死 锁 了 。 所 谓 死 锁 ， 就 是 多 个 进程 循环 等 待 他 
方 占 有 的 资源 而 无 限期 地 僵持 下 去 。 如 果 没 有 外 力 的 作用 ， 那 么 死 锁 涉及 的 各 个 进程 都 将 永远 处 于 封锁 状 
态 。 因 此 ， 驱 动工 程 师 一 定 要 注意 : 当 多 个 等 待 队 列 、 信 号 量 、 互 斥 体 等 机 制 同时 出 现时 ， 谨 防 死 锁 ! 


现在 回 过 来 了 看 一 下 代码 清单 8.6 的 第 12 行 和 63 行 ， 友 现在 设备 驱动 的 read O ~ write © 等 功能 函数 
中 ， 可 以 通过 filp->f flags 标 志 获 得 用 户 空间 是 否 要 求 非 阻 窄 访问 。 了 驱动 中 可 以 依据 此 标志 判断 用 户 究 葛 要 
求 阻塞 还 是 非 阻 塞 访 问 ， 从 而 进行 不 同 的 处 理 。 


代码 中 还 有 一 个 关键 点 ， 束 是 无 论 读 国 数 还 是 与 国 数 ， 在 进入 真正 的 谈 与 之 前 ， 都 要 册 雇 判 灶 设备 十 
个 可 以 恋 写 ， 见 第 11 行 的 while (dev->current len==0) 和 第 62 行 的 while Cdev- 
»current len-- GLOBALFIFO SIZE) 。 主 要 目的 是 为 了 让 并 发 的 谈 或 者 并 有 的 与 都 正确 。 设 想 如 末 两 个 读 
进程 都 阻塞 在 该 上 ， 写 进程 执行 的 wake up interruptible (&dev->r wait) 实际 会 同时 唤醒 它们 ， 其 中 先 执 


行 的 那个 进程 可 能 会 率先 将 FIFO 再 次 该 空 ! 


8.1.3. ÆHF FH uüEglobalfifo f 13:57 


本 书 代 人 码 仓库 的 /kernel/drivers/globalfifo/ch8 包 含 J globalfifof*] 3X2), ‘make”* 命 令 编 译 得 到 
globalfifo.ko。 接 着 用 insmod 模 块 


# insmod globalfifo.ko 


创建 设备 文件 节点 “dewglobalfifo”， 有 具体 如 下 : 


# mknod /dev/globalfifo c 231 0 


asp ERE, —~S2EREcat/dev/globalfifo& Æj AAT, ~M E echo iT F /dev/globalfifo” fF Al S 
执行 : 
# cat /dev/globalfifo & 
[43] 20910 
# echo 'I want to be' > /dev/globalfifo 
I want to be 


# echo 'a great Chinese Linux Kernel Developer' > /dev/globalfifo 
a great Chinese Linux kernel Developer 


每 当 echo 进 程 同 /dev/globalfifo 写 入 一 串 数 据 ，cat 进 程 就 立即 将 该 串 数 据 显 现 出 来 ， 好 的 ， 让 我 们 抱 着 


这 个 信念 “IT want to be a great Chinese Linux Kernel Developer’ 4k 22 gj 17 HE ! 


往 /dev/globalfifo 里 面 echo 需 要 root 权 限 ， 和 直接 运行 “sudo echo" 征 不 行 的 ， 可 以 乞 执行 


baohua@baohua-VirtualBox://sys/module/globalmem$ sudo su 
[sudo] password for baohua: 


这 段 代码 的 密码 也 是 “baohua”。 之 后 再 进行 echo。 


8.2” 轮 询 操 作 
8.2.1 轮 询 的 概念 与 作用 


在 用 户 程序 中 ，select〈() 和 poll O 也 是 与 设备 阻 罕 与 非 阻 窄 访问 奶奶 相关 的 论题 。 使 用 非 阻 罕 /O 
的 应 用 程序 通常 会 使 用 select“) Mpo O 系统 调用 人 查询 是 否 可 对 设备 进行 无 阻 瑟 的 访问 。select() 和 
poll O 系统 调用 最 终 会 使 设备 驱动 中 的 poll() 函数 被 执行 ， 在 Linux2.5.45 内 核 中 还 引入 了 epol © ， 即 
扩展 的 poll O 。 


select O 和 poll() 系统 调用 的 本 质 一 样 ， 前 者 在 BSD UNIX 中 引入 ， 后 者 在 System V 中 引入 。 


8.2.2 ”应 用 程序 中 的 轮 询 编程 


应 用 程序 中 最 广泛 用 到 的 是 BSD UNIX 中 引入 的 select O 系统 调用 ， 其 原型 为 : 


idt selecL0LDL S2uNBLdS. IU. See “~Lreadids, Id see “writers; id Set “exceprrds, 
struct timeval *timeout); 


其 中 readfds、Wwritefds、exceptfds 分 别 是 被 select O 监视 的 读 、 写 和 异常 处 理 的 文件 描述 从 集合 ， 
numfds 的 值 是 需要 检查 的 号码 最 高 的 亿 加 1。readfds 文 件 集 中 的 任何 一 个 文件 变 得 可 读 ，select〈() 返回 ; 
同 理 ，writefds 文 件 集中 的 任何 一 个 文件 变 得 可 写 ，select 也 返回 。 


如 图 8.3 所 示 ， 第 一 次 对 n 个 文件 进行 select《〈) 的 时 候 ， 石 任何 一 个 文件 满足 要 求 ，select〈) LE Re 
返回 ; FRA Tselect O 的 时 候 ， 没 有 文件 满足 读 写 要 求 ，select《〈) WHEE HR. HFH 
select O 的 时 候 ， 每 个 驱动 的 poll O 接口 都 会 被 调用 到 ， 实 际 上 执行 select〈(〉 的 进程 被 挂 到 了 每 个 驱动 
的 等 待 队 列 上 ， 可 以 被 任何 一 个 驱动 唤醒 。 如 果 FDn 变 得 可 读 写 ，select〈() 返回 。 


Selec 
| erp 
| e. 
| 
| 
| *** 
| 
L 
| 
| 
= 
T‘ j lilt 等 待 


| 
任何 文件 FD， 没有 文件 FD, 变 得 
可 以 读 写 | 可 以 读 写 可 以 读 写 
| 








图 8.3 ”多 路 复 用 select ©) 


timeout Zi fe — T 18 [Fl struct timeval 类 型 的 指针 ， 它 可 以 使 select O 在 等 待 timeout 时 间 后 奉 仍 然 没 有 
文件 描述 符 准 备 好 则 超时 人 返回。struct timeval 数 据 结构 的 定义 如 代码 清单 8.7 所 示 。 


代码 清单 8.7 ”timeval 结 构 体 定义 


lstruct timeval { 


2 Int. Ty se; /* gb */ 
2 int tv usec; /* 微 秒 */ 
4}; 


PUNE RBC. THER. FULT CTP TIA TT SE : 


ED JABRO(IG Set “set) 


清除 一 个 文件 拍 述 符 集 合 


ED SET (ine Xd sd sec *ser) 


将 一 个 文件 描述 符 加 入 文件 摘 述 符 集 合 中 : 


ED CDR(OIMU Bed set. ^589e9t) 


TE — P SCE TID AT DAOC TID ATS AR 


SES 
X 


ED Teoh (Ln £0; 0d! seu. ^set) 


FET SCF IE TT HE 3 BCL. « 


poll ©) 的 功能 和 实现 原理 与 select O 相似 ， 其 函数 原 


Ine, POLL GSUPUCL POLLA “fds; Mids Lb nos nc Gineout) 


id 


Sun inst 


SS IRA SCPE RK. VOU ESSI I AAS AE trf select O Mpo O ， 此 种 情 


EjepollAfB KRH P T RI Fez H1 8135: 


InG GDOLL Orequetrdt- ge). 


况 下 ，select ©) 和 poll O 的 性 能 表现 较 差 ， 我 们 宜 使 用 epoll。epoll 的 最 大 好 处 是 不 会 随 看 乌 的 数目 增长 
MRX, selet ©) 则 会 随 着 fd 的 数量 增 大 性 能 下 降 明 显 。 


创建 一 个 epoll 的 句柄 ，size 用 来 告诉 内 核 要 监 昕 多 少 个 得 。 和 需要 注音 的 是 ， 当 创建 好 epoll 句 檐 后 ， 它 


本 里 也 会 占用 一 个 {4 值 ， 所 以 在 使 用 完 epoll 后 ， 必 须 调用 close() 关闭 。 


Ine SPOLL :Ceistineeprd;, GIHb- Ops, Dive Idy- sSeruce. poll venue, *evenu):; 


告诉 内 核 要 监听 什么 次 型 的 事件 。 第 1 个 参数 是 epoll create © 的 返回 值 ， 第 2 个 参数 表示 动作 ， 包 


EPOLL CTL ADD: 注册 新 的 各 到 epfd 中 。 


EPOLL CTL MOD: 修改 已 经 注册 的 和 的 监听 事件 。 


EPOLL CTL DEL: 从 ep 锯 中 删除 一 个 包 。 


N 


F3T SBE na deu Nid, 9844 BBE BVA na e Ha AN SES 


SUPUOtcepobLb event 4 

uint32 t events;  /* Epoll events */ 

epoll data t data;  /* User data variable */ 
bi 


events EJ 以 是 以 下 几 个 宏 的 “或 ”: 


AY, struct epoll event 结 构 如 下 : 


EPOLLIN: 表示 对 应 的 文件 搬 述 从 可 以 读 。 

EPOLLOUT: 表示 对 应 的 文件 插 述 从 可 以 写 。 

EPOLLPRI: 表示 对 应 的 文件 搬 述 从 有 紧急 的 数据 可 读 〈 这 里 应 该 表示 有 的 是 有 socket 市 外 数据 到 
P EE 

EPOLLERR: zn HI CPP SHIA TT ACL TH VR o 

EPOLLHUP: 表示 对 应 的 文件 搬 述 从 被 挂 断 。 


EPOLLET: 将 epoll 设 为 边缘 触发 〈Edge Triggered) 模式 ， 这 是 相对 于 水 平 触发 (Level Triggered) 来 
说 的 。LT (Level Triggered) 是 缺 省 的 工作 方式 ， 在 LT 情况 下 ， 内 核 告诉 用 户 一 个 伺 是 否 承 绊 了 ， 之 后 用 
尸 可 以 对 这 个 束 弹 的 得 进行 WO 操作 。 但 是 如 果 用 户 不 进行 任何 操作 ， 访 事件 并 不 会 丢失 ， 而 ET (Edge- 
Triggered) 是 高 速 工 作 方式 ， 在 这 种 模式 下 ， 当 得 从 未 就 绪 变 为 就 绪 时 ， 内 核 通过 epoll 告 诉 用 户 ， 然 后 它 
eB PA fd A AR, FFA ANS RAS Pd AIK E E EA A AL 


EPOLLONESHOT: ŽRE WREE, SSN Se SE Za, WMR m ERA I ae dbi 
32 FE YR FELIX PS Ed IIA Bllepoll BA 7i] E . 


Ine, Spoll war (10L epid; SCtrHUct epoll event ~ evento; ant Maxevents, int. timeout); 


SRP ree, A PeventsB are T9 D 2235. HRANIREA, maxevents tr VFA TAK 
最 多 收 多 少 事 件 ，maxevents 的 ee O 时 的 size， 参 数 fimeout 是 超时 时 间 《〈 以 坚 秘 


为 单位 ，0 意 味 痢 立即 返回 ，-1 意 味 独 永久 等 竺 ) 。 该 亢 数 的 返回 值 是 需要 处 理 的 事件 数目 ， 如 返回 0， 则 
表示 已 超时 。 


ALT https://www.kernel.org/doc/ols/2004/ols2004v1-pages-215-226.pdff'J X: (Comparing and Evaluating 
epoll, select, and poll Event Mechanisms》 对 比 了 select、epoll、poll 之 间 的 一 些 性 能 。 一 般 来 说 ， 当 涉及 的 
fd 数量 较 少 的 时 候 ， 使 用 select 是 合适 的 ; 如 果 涉 及 的 人 很多， 如 在 大 规模 并 发 的 服务 器 中 候 听 许多 socket 
的 时 候 ， 则 不 太 适 合 选 用 select， 而 适合 选用 epoll。 


8.2[3 ”设备 驱动 中 的 轮 询 编程 


设备 驱动 中 poll() 函数 的 原型 是 : 


ins toned, med POLL) (struct tile * filp, struce poll table* wail); 


第 1 个 参数 为 fle 结 构 体 指针 ， 第 2 个 参数 为 轮 词 表 指 和 针 。 这 个 函数 应 该 进行 两 项 工作 。 


1) 对 可 能 引起 设备 文件 状态 变化 的 等 待 队 列 调 用 poll_wait〈) 函数 ， 将 对 应 的 等 竺 队列 头 部 添加 到 


poll table. 


2) BERRE Be A ee EAT CPA EI. TTA) TARAS 


用 于 辐 poll table 注 册 等 竺 队列 的 关键 poll wait ©) 函数 的 原型 如 下 : 


void poll,wect(struct file *ILlp, welt queue heat 1 ^queue, poll table * wait); 


poll wait O 函数 的 名 称 非常 容易 让 人 产生 误会 ， 以 为 它 和 wait event O 等 一 样 ， 会 阻塞 地 等 待 某 
事件 的 发 生 ， 其 实 这 个 函数 并 不 会 引起 阻塞 。poll wait O 隐 数 所 做 的 工作 是 把 当前 进程 添加 到 wait 参 数 
指定 的 等 每 列表 (poll table) 中 ， 实 际 作 用 是 让 唤醒 参数 queue 对 应 的 等 竺 队列 可 以 唤醒 因 select ©) 而 睡 


眠 的 进程 。 


Ika REP poll O 函数 应 该 返回 放 备 资源 的 可 获取 状态 ， 即 POLLIN、POLLOUT、POLLPRI、 
POLLERR、POLLNVAL 等 宏 的 位 “或 结果。 每 个 宏 的 含义 都 表明 设备 的 一 种 状态 ， 如 POLLIN (定义 为 
0x0001) 意味 着 设备 可 以 无 阻塞 地 读 ，POLLOUT (定义 为 0x0004) 意味 着 设备 可 以 无 阻塞 地 写 。 


通过 以 上 分 析 ， 可 得 出 设备 驱动 中 poll O 函数 的 典型 模板 ， 如 代码 清单 8.8 所 示 。 


代码 清单 8.8 poll ©) 函数 典型 模板 


Stallo Unsigned INL xxx pollistrucL file “filo, poll. table Swart) 


i 
Z3 

3 unsigned int mask = 0; 

4 Struct xxx dev "dev = rilp-^private data; 
S 

6 

7 

8 


poll wait(filp, &dev->r wait, wait); 
poll wait(filp, &dev->w wait, wait); 


tO IE (sas) 


ld mask |= POLLIN | POLLRDNORM; 
1 

lo TE (ssa) 

14 mask |= POLLOUT | POLLWRNORM; 
is 


16 return mask; 


/* 


/* 


/ * 


/ * 
/* 


/* 
/* 


获得 设备 结构 体 指针 * / 


加 入 读 等 待 队列 */ 


加 入 写 等 待 队列 */ 


Wu * / 
标示 数据 可 获得 (对 用 户 可 读 ) * / 








可 写 */ 
标示 数据 可 写 入 * / 





83 ” 文 持 轮 询 操作 的 globalfifo 弛 动 
8.3.1 fEglobalfifo 3k z/] F I Jn Fe val BEE 


fEglobalfifof/poll O PAA A, PEZ e za PS waitflw waits 45 BÀ 7l] 3 $5255 1 Bl S f I Ze 
CARE DAT US] FA select if BA Ee NaH Fe n] DA itr wait 和 w wait 唤醒 ) ， 然 后 通过 判断 dev->current lene 455; T0 
来 获得 设备 的 可 读 状 态 ， 通 过 判断 dev->current_ len 是 否 等 于 GLOBALFIFO SIZE 来 获得 设备 的 可 与 状态 ， 
如 代码 清 蛙 8.9 所 示 。 


代码 清单 8.9 ”globalfifo 设 备 驱 动 的 poll() 函数 


locatie Unsigned ane gLapaliiro pollistiruct: tile *ILLp, poll table ~ wert) 


3 unsigned int mask = 0; 
Struct JgIODALILILO dev *dey = Inlp-^private data; 


4 
S 
6 mutex lock(&dev-»mutex);; 
7 
8 


poll wait(filp, &dev->r wait, wait); 
9 poll wait(filp, &dev-»w wait, wait); 


11 al (deve turrenb Lem Je 0) d 

12 mask |= POLLIN | POLLRDNORM; 

lo J 

Lo ii (dev=>current len l= GLOPALYIFO SIZE) 4 
16 mask |= POLLOUT | POLLWRNORM; 

17  ] 


l9 mutex unmbLockisdev-^omutex). 
20 return mask; 


注意 ， 要 把 globalfifo polli globalfifo fops 的 poll 成 员 : 


Static Const SLIUCL tide Operations Globaliifo tops = 4 


spol. —cglobalfifo poll, 


8.3.2 ”在 用 户 空间 中 验证 globalfifo 设 备 的 轮 询 


编写 一 个 应 用 程序 globalfifo pollc， 以 用 select ©) 监控 globalfifo 的 可 读 写 状态 ， 这 个 程序 如 代码 清早 
8.10 所 示 。 


代码 清单 8.10 ”使 用 select 监 控 globalfifo 是 耕 可 非 阻 窜 读 、 写 的 应 用 程序 


li#define FIFO CLEAR 0x1 

2#define BUFFER LEN 20 

3void main (void) 

4{ 

9. IUE. La; Time 

6 char rd ch[BUFFER LEN]; 

7 fd set rfds, wfds; /* 读 / 写 文件 描述 符 集 */ 


9 /* 以 非 阻塞 方式 打开 /dev/9globalfifo 设 备 文件 */ 
10 fd = open("/dev/globalfifo", O RDONLY | O NONBLOCK); 


ll ait (fd t= —L) 4 

12 /* FIFO#O */ 

123 DI (QXoocblitd, FIFO CLEAR; 0) < 0) 

14 pristr(i"broocLl command, farleoum")3j 

Pu 

16 while (1) { 

17 FD ZERO (&rfds) ; 

18 FD ZERO (&wfds) ; 

19 FD SET(fd, &rfds); 

20 FD SET(fd, &wfds); 

21 

22 select (fd + 1, &rtds, &wrds, NULL; NULL); 
2 /* 数据 可 获得 */ 

24 1X {ED Loon Dd, Tetas),) 

2. printf("Poll monitor:can be read\n") ; 
26 /* 数据 网 写 做 */ 

21 if (FD ISSET(fd, &wfds)) 

20 Srintf ("Poll monitor?can be written \n"); 
29 } 

30 } else { 

31 printf ("Device open failure\n"); 

32 ] 

33} 


在 运行 时 可 看 到 ， 当 没有 任何 输入 ， 即 FIFO 为 至 时 ， 程 序 不 断 地 输出 Poll monitor: can be written, “4 
通过 echo 回 /dewglobalfifo 写 入 一 些 数据 后 ， 将 输出 Poll monitor: can be read 和 Poll monitor: can be written, 
如 果 不 断 地 通过 echo 同 /dewglobalfifo 写 入 数据 百人 至 与 满 FIFO， 则 发 现 pollmonitor 程 序 将 只 输出 Poll 
monitor: can beread。 对 于 globalfifo 而 言 ， 不 会 出 现 既 不 能 谈 ， 又 不 能 与 的 情况 。 


编写 一 个 应 用 程序 globalfifo epoll.c， 以 用 epoll 监 控 globalfifo 的 可 读 状 态 ， 这 个 程序 如 代码 清早 8.11 所 


示 。 
代码 清单 8.11 ”使 用 epoll 监 控 globalfifo 是 否 可 非 阻塞 读 的 应 用 程序 


1#define ELEO CIBEAR 0x1 
2#define BUFFER IN 20 
3void main (void) 


41 

S Zn es 

6 

7 fd = open("/dev/globalfifo", O RDONLY | O NONBLOCK); 
8 if (fd != -1) { 

9 Struot epoll event ev globalflbo; 
10 int err; 
LL int epid? 


d DE "(LOG CEO, ESL CLEAR» OD 20) 


14 printf('cooGtl command failed) 

to 

16 SDpId = CPOLL Crearvetl); 

1.7 if (epfd < 0) 4 

18 perror("epoll create(Q 7) 

1 return; 

20 } 

Z4 

PAP, bzero(sev globalLrroy S:zeol(strucut epoll EVEN)? 
AS ev globaltrrto.events — EPOLLAN | EPOLLPRI; 

24 

29 erm = poll cultepro, bPOhh ULL ADD, td, -xevcglobaltrtio)y 
26 prt Herr < 0y 4 

2 persor(c'epodl ct IMIS 

20 return; 

2.9 } 

30 erp epoll wart(éepid, kev Globali rio; dy L90077 
3 if (err < 0) { 

32 Perron SPOLL Wert IT 

33 } else if (err == 0) { 

34 Prince ("No data input in FIFO Within i5 seconds. \n")% 
35 } else { 

36 Prince (TFIO aS not empty nT s 

37 } 

38 err DL -cEel(Cepid;: EPLL CIL DEL- Tay xev goobsbrrzro) 
39 if (err < O0) 

40 Perron ("epo COLLUM 

41 } else { 

42 printt("Device open far lure\n"™); 

43 } 

44} 


上 述 程序 第 2$ 行 epoll ctl Cepfd, EPOLL CTL ADD, fd, &ev globalfifo〉 将 globalfifo 对 应 的 和 加 入 到 
了 侦 上 听 的 行列 ， 第 23 行 设置 侦 听 读 事 件 ， 第 30 行 进行 等 生 ， 奋 1$ 秒 内 没有 人 与 /dewglobalfife， 访 程序 会 打 
印 No data input in FIFO within 1Sseconds， 售 则 程序 会 打印 FIFO is not empty. 


阻 堵 与 非 阻 奢 访 问 是 IO 操作 的 两 种 不 同 模式 ， 前 者 在 暂时 不 可 进行 IO 操作 时 会 让 进程 睡 具 ， 后 者 则 
人 不然。 


在 设备 驱动 中 阻塞 IO 一 般 基 于 等 待 队列 或 者 基于 等 待 队列 的 其 他 Linux 内 核 API 来 实现 ， 等 待 队列 可 
用 于 同步 驱动 中 事件 发 生 的 先后 顺序 。 使 用 非 阻塞 IO 的 应 用 程序 也 可 借助 轮 询 函 数 来 查询 设备 是 否 能 立 
即 被 访问 ， 用 户 空间 调用 select O . poll O 或 者 epoll 接 口 ， 设 备 驱 动 提供 poll O 函数 。 设 备 驱 动 的 
poll O 本 身 不 会 阻塞 ， 但 是 与 pol © ~ selet €) 和 epoll 相 关 的 系统 调用 则 会 阻塞 地 等 待 至 少 一 个 文件 
描述 符 集合 可 访问 或 超时 。 


第 9 音 ”Linux 设 备 驱 动 中 的 异步 通知 与 开 步 JO 
本 章 导 读 


在 设备 驱动 中 使 用 异步 通知 可 以 使 得 在 进行 对 设备 的 访问 时 ， 由 驱动 主动 通知 应 用 程序 进行 访问 。 这 
样 ， 使 用 非 阻 皮 WO 的 应 用 程序 无 须 轮 询 设备 是 人 否 可 访问 ， 而 阻 到 访 问 也 可 以 被 类 似 “ 中 断 ”* 的 异步 通知 所 
取代 。 


除了 异步 通知 以 外 ， 应 用 还 可 以 在 发 起 IO 请 求 后 ， 立 即 返 回 。 之 后 ， 册 得 询 IO 完 成 情况 ， 或 者 IO 完 
成 后 被 调 回 。 这 个 过 程 叫 作 措 步 W/O。 


9.1 节 讲解 了 异步 通知 的 概念 与 作用 。 
9.2 下 讲解 了 Linux 有 天 步 通知 的 编程 方法 。 
9.3 节 给 出 了 增加 异步 通知 的 globalfifo 驱 动 及 其 在 用 户 空间 的 验证 。 


9.4 廊 则 讲解 了 Linux 基 于 C 库 的 弄 步 WO 和 内 核 本 里 异步 WO 的 用 尸 空间 编程 接口 ， 以 及 驱动 如 何 支 持 
AIO. 


9.1 异步 通知 的 概念 与 作用 


了 咀 窗 与 非 阻 暑 访问 、poll()〉 孙 数据 供 了 较 好 的 解决 设备 访问 的 机 制 ， 但 是 如 果 有 了 弄 步 通知 ， 整 僚 
机 制 则 更 加 完整 了 。 


异步 通知 的 意思 是 : 一 旦 设备 就 绪 ， 则 主动 通知 应 用 程序 ， 这 样 应 用 程序 根本 就 不 需要 查询 设备 状 
态 ， 这 一 点 非常 类 似 于 硬件 上 “中 断 ” 的 概念 ， 比 较 准 确 的 称谓 是 “信号 驱动 的 异步 JO”。 信 号 是 在 软件 层 
次 上 对 中 断 机 制 的 一 种 模拟 ， 在 原理 上 ， 一 个 进程 收 到 一 个 信号 与 处 理 器 收 到 一 个 中 断 请 求 可 以 说 是 一 样 
的 。 信 和 号 是 异步 的 ， 一 个 进程 不 必 通 过 任何 操作 来 等 待 信号 的 到 达 ， 事 实 上 ， 进 程 也 不 知道 信号 到 底 什 么 
时 候 到 过 。 


BEVARE- ASARAN HA, SEEN E Hpo O RREA WAEN V 
问 ， 而 异步 通知 则 意味 着 设备 通知 用 户 上 自身 可 访问 ， 之 后 用 户 再 进行 IO 处 理 。 由 此 可 见 ， 这 几 种 IO 方式 
可 以 相互 补充 。 

儿 9.1 呈 现 了 阻 奢 IO， 结 合 轮 询 的 非 阻力 IO 及 基于 SIGIO 的 异步 通知 在 时 间 和 先后 顺序 上 的 不 同 。 


FT 资源 可 获得 








用 户 空 间 


系统 调用 













| 唤醒 唤醒 -唤醒 _ 返回 | 
1 Em cA Lia m NE 1 
ET J:2rn» 
l | 
资源 状态 变更 资源 状态 变更 | 资源 
| I 1 I “7 
资源 资源 | 可 获得 
ARE R 
不 可 获得 可 获得 | 
阻塞 IO | 1EBHAE TE TL/O | 异步 通知 


图 9.1 阻塞、 结合 轮 询 的 非 阻 杜 O 和 异步 通知 的 区 别 


这 里 要 强调 的 和 是: PAGE. JEIEN, HAMAR ALA, POR S TAL EN Dp se He FE 
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9.21 Linux 信 号 


使 用 信号 进行 进程 间 通 信 〈IPC) 是 UNIX 中 的 一 种 传统 机 制 ，Linux 也 文 持 这 种 机 制 。 在 Linux 中 ， 腊 


步 通知 使 用 信号 来 实现 ，Linux 中 可 用 的 信号 及 其 定义 如 表 9.1 所 示 。 


表 9.1 Linux 信 号 及 其 定义 


CES — n & x 
SIGHUP 挂 起 
SIGINT 终端 中 断 
SIGQUIT 终端 退出 
SIGILL 无 效 命令 
SIGTRAP 跟踪 陷阱 
SIGIOT || 8 | | IOT 陷阱 
SIGFPE 浮 点 异常 
SIGKILL 强行 终止 (不 能 被 捕获 或 忽略 ) 
SIGUSRI 用 户 定义 的 信号 
SIGSEGV 无 效 的 内 存 段 处 理 
SIGUSR2 用 户 定义 的 信号 2 
SIGPIPE 站 关闭 管道 的 写 操作 已 经 发 生 
SIGALRM 计时 器 到 其 
SIGTERM 终止 

(ZÈ ) 
a Ta —— x 
SIGSTKFLT 堆栈 错误 
SIGCHLD 子 进程 已 经 停止 或 退出 
SIGCONT 如 果 停 止 了 ， 继 续 执行 
SIGSTOP 停止 执行 (不 能 被 捕获 或 忽略 ) 
SIGTSTP 终端 停止 信号 
SIGTTIN 后 台 进程 需要 从 终端 读 取 输 入 
SIGTTOU 后 台 进 各 需要 向 从 终端 写 出 
SIGURG 急 的 套 接 字 事件 
SIGXCPU aH CPU 分 页 的 村 
SIGXFSZ 文件 尺寸 超额 
SIGVTALRM 虚拟 时 钟 信 号 
SIGPROF EN E 号 描述 
SIGWINCH 窗口 尺寸 变化 
SIGPWR d 重启 


除了 SIGSTOP 和 SIGKILL 两 个 信 


号外 ， 进 程 能 够 忽略 或 捕获 其 他 的 全 部 信号 。 一 个 


写 被 捕获 的 意思 


是 当 一 个 信号 到 达 时 有 相应 的 代 公 处 理 它 。 如 来 一 个 信号 没有 被 这 个 进程 所 捕 绪 ， 内 核 将 采用 扶 认 行为 处 


TM 


9.2.2 ”信号 的 接收 
在 用 户 程序 中 ， 为 了 捕获 信和 号， 可 以 使 用 signal O 函数 来 设置 对 应 信号 的 处 理 函 数 : 
a E a o 
该 函数 原型 较 难 理解 ， 它 可 以 分 解 为 : 


Cypeder void (*sighandler t) (anv); 
sighandler t signal(int signum, sighandler t handler)); 


ATSA E sm. S—TS34uU BEL XIBU BITS S ELIT AER PLZ, AANSIG IGN, KIRK 
HS: 在 为 SIG DFL, Xézns AH] AREAS ZI AGH y: GAARA Bax XHJESAA WMS SR. VE 
图 数 将 被 执行 。 

如 采 Signal C) 调用 成 功 ， 它 返回 最 后 一 次 为 信号 Signum 比 定 的 处 理 函 数 的 handler 住 ， 和 失败 则 返回 
SIG ERR. 

在 进程 执行 时 ， 按 下 “Ctrlt+C” 将 同 其 发 出 SIGINT 人 信号， 正在 运行 Kill 的 进程 将 问 其 友 出 SIGTERM 信 
号 ， 代 三 清单 9.1 的 进程 可 捕获 这 两 个 信 志 并 输出 信和 号令。 


代码 清单 9.1 signal O Haka s Yum 


Lvoid: Sigterm handler (int Signo) 

Z1 

3 printf("Have caught sig N.O. sdin"; signo); 
4  exit(0); 

2 

6 

7]int main(void) 

9  Srgnal(ioIlGlNT, Sigterm handler); 

10  signal(SIGIERM, sigterm handler); 

11 while(1); 


13 return 0; 


be f signal O ei Bb, sigaction () 函数 可 用 于 改变 进程 接收 到 特定 信号 后 的 行为 ， 它 的 原型 为 : 


int rgactroni(inut Slonmnum Const Struct SIgactrom act Struct ergactrion *oLgsCt))37 


AS 一 


该 函数 的 第 一 个 参数 为 信号 的 值 ， 可 以 是 除 SIGKILL 及 SIGSTOP 外 的 任何 一 个 特定 有 效 的 信号 。 第 二 
个 参数 是 指向 结构 体 sigaction 的 一 个 实例 的 指针 ， 在 结构 体 sigaction 的 实例 中 ， 指 定 了 对 特定 信号 的 处 理 
图 数 ， 若 为 室 ， 则 进程 会 以 缺 省 方式 对 信号 处 理 ， 第 三 个 参数 oldact 指 向 的 对 象 用 来 保存 原来 对 相应 信和 号 
的 处 理 函 数 ， 可 指定 oldact 为 NULL。 如 采 把 第 二 、 第 三 个 参数 都 设 为 NULL， 那 么 该 函数 可 用 于 检 得 信和 号 


的 有 效 性 。 


先 来 看 一 个 使 用 信号 实现 异步 通知 的 例子 ， 过 signal (SIGIO，input handler) 对 标准 输入 文件 摘 
述 从 STDIN_FILENO 局 动 信号 机 制 。 用 户 输 入 后 ， 应 用 程序 将 接收 到 SIGIO 信 和 号， 其 处 理 函 数 
input_handler O 将 被 调用 ， 如 代码 清单 9.2 所 示 。 


代码 清单 9.2 ”使 用 信和 写实 现 寞 步 通 知 的 应 用 程序 实例 


l#include <sys/types.h> 
2#include <sys/stat.h> 
3#include <stdio.h> 
A#include <fcntl.h> 
5#include <signal.h> 
6#include <unistd.h> 
7#define MAX LEN 100 

8void input handler(int num) 


10 char data[MAX LEN]; 
ll ant len; 


13  /* 读 取 并 输出 STDIN FILENO 上 的 输入 */ 
14 len = read(STDIN FILENO, &data, MAX LEN); 


15 data[len] = 0; 

16 printf("input available:%Ss\n", data); 
L73 

18 

19main () 

201 

21 int oflags; 

2a 


23 /* 启动 信号 驱动 机 制 * / 

24 signal(SIGIO, input handler); 

29  fOntl(STDIN ELLENO, E SEIOWN, getpidc(); 

20. Oflags = TIOntlLliorDIN FIUENO, E GEDIEh); 

Zt RUN ELBEENO, F SELEh, orlags- | FASYNC); 





29 /* 最 后 进入 一 个 死 循 环 ， 仅 为 保持 进程 不 终止 ， 如 果 程 序 中 
30 没有 这 个 死 循 会 立即 执行 完毕 */ 
31 while (1); 


述 代 个 24 行 为 SIGIO 信 号 安装 input handler O 作为 处 理 函 数 ， 第 25 行 设置 本 进程 为 
STDIN _ FILENO 文 件 的 拥有 者 ， 没 有 这 一 步 ， 内 核 不 会 知道 应 该 将 信号 及 给 哪个 进程 。 而 为 了 局 用 并 步 通 
知 机 制 ， 还 需 对 设备 设置 FASYNC 标 志 ， 第 26 行 、27 行 代码 可 实现 此 目的 。 整 个 程序 的 执行 效果 如 下 : 


[root@localhost driver study]# ./signal test 


I am Chinese. -> 用 户 输 入 
input available: I am Chinese. -> signal test 程 序 打印 
I love Linux driver. => MPRA 
input available: I love Linux driver. -> signal test 程 序 打印 


从 中 可 以 看 出 ， 当 用 户 和 输入 一 串 字 符 后 ， 标 准 输入 设备 释放 SIGIO 信 号 ， 这 个 信号 “中 断 ? 与 驱使 对 应 
的 应 用 程序 中 的 input handler O 得 以 执行 ， 并 将 用 户 输入 显示 出 来 。 


由 此 可 见 ， 为 了 能 在 用 户 空 间 中 处理 一 个 设备 释放 有 的 信 写 ， 它 必须 完成 3 项 工作 。 


1) 通过 F_SETOWN 10 控制 命 令 设 置 设备 文件 的 拥有 者 为 本 进程 ， 这 样 从 设备 驱动 友 出 的 信 坪 才能 伞 
本 进程 接收 到 。 


2) 通过 F SETFL IO 控制 命令 放置 设备 文件 以 文 持 FASYNC， 即 异步 通知 模式 。 


3) 通过 signal O RAE RHE s MS s ChE PK AC. 


9.2.3 ”信号 的 释放 


在 设备 驱动 和 应 用 程序 的 异步 通知 交互 中 ， 仅 仅 在 应 用 程序 端 捕获 信号 是 不 够 的 ， 因 为 信号 的 源头 在 
设备 驱动 端 。 因 此 ， 应 该 在 合适 的 时 机 让 设备 驱动 释放 信号 ， 在 设备 驱动 程序 中 增加 信号 释放 的 相关 代 
m. 


73 SEW ESCAPE AL tl], SKE Pe RF 


1) 支持 F SETOWN 命 令 ， 能 在 这 个 控制 命令 处 理 中 设置 flp->f_ owner 为 对 应 进程 ID 。 不 过 此 项 工作 
己 由 内 核 完 成 ， 设 备 张 动 无 须 处 理 。 


2) 支持 F_SETFL 命 令 的 处 理 ， 每 当 FASYNC 标 志 改 变 时 ， 了 驱动 程序 中 的 fasync() 函数 将 得 以 执行 
因此 ， 驱 动 中 应 该 实现 fasync〈() RAA. 


3) 在 设备 资源 可 获得 时 ， 调 用 Kill fasync O 函数 激发 相应 的 信号 


驱动 中 的 上 述 3 项 工作 和 应 用 程序 中 的 3 项 工作 是 一 一 对 应 的 ， 图 9.2 所 示 为 卉 步 通 知 处 理 过 程 中 用 三 
空间 和 设备 驱动 的 交互 。 


signal () 绑 定 


fentl (fd, F_SETOWN, getpid ()) fentl (fd, F_GETFL) [Coe 信 | 信号 处 理 函 数 | l 


内 核 设置 filp- 2f. owner 设备 驱动 fasync () 函数 资源 可 获得 





图 9.2 ”异步 通知 中 设备 驱动 和 寞 步 明 知 的 交互 


设备 驱动 中 异步 明知 编程 比较 简单， 主要 用 到 一 项 数据 结构 和 两 个 函数 。 数 据 结构 是 fasync_struct 缩 
RJ. PAS ER BST Fill ze 


1) 处 理 FASYNC 标 志 变 更 的 函数 。 


Ln acyic helper (int rd, Sstrucc 二 ER ~ia); 


2) PERU H HI ee av 


volo kill tasyne(Struct Tasync struct La, Int Sig, int band); 


和 其 他 的 设备 驱动 一 样 ， 将 fasync_struct 结 构 体 指针 帮 在 设备 结构 体 中 仍然 古 最 佳 选择 ， 代 人 码 消 单 9.3 
给 出 了 文 持 异步 通知 的 设备 结构 体 模 板 。 


代码 清单 9.3” 文 持 异 步 通知 的 说 备 结构 体 模 板 


lstruct Xxx dev i1 

2 struct cdev cdev; /* cdev 结 构 体 */ 
3 T^ 

4 Struct. fasyne struct *asyno queue; /* 异步 结构 体 指针 */ 
2]; 


在 设 备 驱 动 的 fasync O PRIA, Hom fa FZ RAI BABU AK fasync. struct TJ STR ET A TA 


针 作 为 第 4 个 参数 传 入 fasync helper O 函数 即 可 。 代 三 清 单 9.4 给 出 了 文 持 异 步 通知 的 设备 驱动 程序 
fasync CO 函数 的 模板 。 


代码 清单 9.4， 文 持 异 步 通知 的 设备 驱动 fsync《〈) eR BRAM 


二 
| 


> Bru xxx dev *dev = tilp->private data; 
4 return fasync helper(itd, tilp, mode, &dev-^async queue) ; 
5j 


在 设备 资源 可 以 获得 时 ， 应 该 调用 Kill fasync O 释放 SIGIO 信 号 。 在 可 谈 时 ， 第 3 个 参数 设置 为 


POLL IN， 在 可 写 时 ， 第 3 个 参数 设置 为 POLL OUT。 代 码 清单 9.5 给 出 了 释放 信号 的 范例 。 


从 异 


代码 清 单 9.5 ” 文 持 异步 通知 的 设备 驱动 信 号 释放 泡 例 


locatio oF 2S L Sc Weve (struct tite ~Il; Consl Char . user “bul, Size t GOUND 
2 Lori © "E DOS) 

3{ 

4 SLIUCL xxx dev “dev = 11lp-- private dala}? 

S 。 

6 /* 产生 异步 读 信号 ar 

7 if (dev->async queue) 

8 kill fasync(&dev->async queue, SIGIO, POLL IN); 

Ds. ec 

10] 


最 后 ， 在 文件 关闭 时 ， 即 在 设备 张 动 的 release O 了 水 数 中 ， 应 调用 设备 驱动 的 fasync() 函数 将 文件 
异步 通知 的 列表 中 删除 。 代 码 清 单 9.5$ 给 出 了 文 持 异 步 通 知 的 设备 张 动 release ©) 函数 的 模板 。 


2V Us) 


代码 清单 9.6， 文 持 异 步 通 知 的 设备 豫 动 release O PU 


letgtice INL Xxx releases i ruce anode *1node, ‘Struce. file *fidp) 
| 

3 /* 将 文件 从 异步 通知 列表 中 删除 * / 

4 xxx Laeyne(-1, Tilp; 0), 

5 TE. 

6 return 0; 

7] 


9.3 ” 文 持 异步 通知 的 globalfifo 驱 动 
9.3.1 ”在 globalfifo 驱 动 中 增加 和 寞 步 通 知 


自 完 ， 参 考 代 人 码 清和 蛙 9.3， 应 该 将 弄 步 结构 体 指 针 冻 加 a 到 globalfifo_ dev 设备 结构 体内 ， 如 代码 消 蛙 9.7 
BIA. 


代码 清单 9.7 增加 异步 通知 后 的 globalfifo 设 备 结构 体 


Lstruce globpeltito dev 1 

struct cdev cdev; 

unsigned int current len; 

unsigned char mem[GLOBALFIFO SIZE]; 
struct mutex mutex? 

wait queue head t r wait; 

wait queue head t w wait; 

SLruct casyno Struct ^asyno queue; 


(O CO —1 O) O1 d» CO ND 


参考 代码 清单 9.4 的 fasync O 图 数 模板 ，globalfifo 的 这 个 函数 如 代 伍 清单 9.8 所 示 。 
代码 清单 9.8” 文 持 异 步 通 知 的 globalfifo 设 备 驱 动 fasync ©) 函数 


locatio nnb globalbllio Tasynciine Id, struct tite VLLL, ai mode) 


Z1 

3 Struct glODSGLILiro dev “dev = IIIp-cprivagte data; 

4 return rasyno Belperi(fgo, ilp; mode, &devy--asyne queue); 
2j 


在 globalfifo 设 备 修正 确 写 入 之 后 ， 它 变 得 可 读 ， 这 个 时 候 驱 动 应 释放 SIGIO 信 握 ， 以 便 应 用 程序 捕 


获 ， 代 人 码 清单 9.9 给 出 了 文 持 异步 通知 的 globalfifo 设 备 驱动 的 写 函 数 。 
代码 清单 9.9” 文 持 异 步 通 知 的 globalfifo 设 备 驱动 写 函 数 
Static Seize t globalLtilto wrzte(struct Eile *ILlp, const char User “bur, 
2 Sizo © COUN, TOIL C apos) 
24 


4 Struct globalfrfo dev. ^dey e ILilp--privgte data; 
5 int ret; 

6 DECLARE WAITQUEUE(wait, current); 

7 

8 


mutex. Lock(&deveomubex) 
9 add wait queue(&dev-»w wait, &wait); 


1:0 

11 while (dev->current len == GLOBALFIFO SIZE) | 
1:7 if (filp->f flags & U NONBLOCK) | 

13 ret = -EAGAIN; 

14 oto OU; 

1:5 } 

16 Set Current. starve (Tack. LNIBBRBUPLIBDRE); 
17 

18 mutex unlock(&dev-»mutex); 

19 

20 schedule (); 

21 if (signal pending(current)) 1 

22 ret = -—-LERESIARTSYSI 

23 goto oüz; 

24 } 

25 

26 mutex lock (&dev->mutex) ; 


28 
29. at (Count 2: ‘GEOBAREIEO D TAR: = dore CUr rent Jen) 


30 count = GHOBAEELEO SLAE -Ss deve>cur ren en; 

3L 

325 dU (Copy Trom usestdev-cmem-edeve^gubspenc-len, Ju QOIS) d 
33 ret = -EFAULT; 

34 GOCO OUE? 

39 } else { 

36 dev=7Currenic Len wc ccOBnSt; 

3.1 Ppranvck( KERN. INFO: "wratten od bytes(s),current len:%d\n", court, 
38 dove Oe Jen); 

39 

40 wake, up. anterruptible(édev-sr wait); 

41 

42 LE (dev-^asynce queue). d 

43 kill Lasync(éedev-c»asyuc queue, SIGlO;, POLL. IN) 
4 4 Printk (KERN DEBUG "os KILE SIGIOXn", Tune 7 
45 } 

46 

47 rot — Counc? 

48 } 

49 

SU Outs 

oL mutex: Unlock (sdev=-mutex); 

o2 GUT: 


53 remove wait queue (é&dev->w wait, &wait); 
g4- Set current stave (TACK RUNNING); 

S. FOCU rer. 

56) 


参考 代码 清单 9.6， 增 加 异步 通知 后 的 globalfifo 设 备 驱 动 的 release O 函数 中 需 调用 
globalfifo fasync〈) 函数 将 文件 从 异步 通知 列表 中 删除 ， 代 码 清 单 9.10 给 出 了 文 持 开 步 通知 的 
globalfifo release () PAZ. 


Mis 9.10 ”增加 和 措 步 通知 后 的 globalfifo 设 备 驱 动 release O 函数 


Isbcatro snc cgloDalLtrzbocrelease(istrucb node 7Inode,; SCUO Pile "FILD) 
Z3 

3° qlobsiLrro rasvneodel. CLLD 0) 7 

4 return 0; 

2j 


9.3.2 ”在 用 户 空 间 中 验证 globalfife 的 异步 通知 


现在 ， 我 们 可 以 采用 与 代码 清单 9.2 类 似 的 方法 ， 编 写 一 个 在 用 户 空间 验证 globalfifo 异 步 通 知 的 程 
序 ， 这 个 程序 在 接收 到 由 globalfifo 发 出 的 信号 后 将 输出 信号 值 ， 如 代码 清单 9.11 所 示 。 


代码 清单 9.11 监控 globalfifo 异 步 通知 信号 的 应 用 程序 


ee 

Z1 

3 printf("receive a signal from globalfifo,signalnum:%d\n", signum); 
4l 

5 

6void main (void) 

T1 

o ant fd, oflags; 

9 fd = open("/dev/globalfifo", O RDWR, S IRUSR | S IWUSR); 


10 if (fd != -1) { 

11 signal(SIGIO, signalio handler); 
12 ontl (Io 5 SBIOWN, getpudtc)y 
Lo OLlags. = TOn CLI d; E SEDED). 

14 Lontli(fo. E SETEl, Oflags | FASYNC); 
2 while (1) { 

16 sleep(100); 

17 } 

18 } else { 

19 printi ("devica open fairlure\n”); 
20 } 

21} 


ZB B/kernel/drivers/globalfifo/ch9 Bl f LFF All IN global fifo9kay LA Ae fV R3 S 8.9.1 6E] NL AY 
globalfifo testc 测 弃 程 序 ， 在 该 目录 运行 make 将 得 到 globalfifo.ko 和 globalfifo test. 


按照 与 第 8 章 相同 的 方法 加 载 新 的 globalfifp 设 备 驱动 并 创建 设备 文件 节点 ， 运 行 上 述 程序 ， 每 当 通 过 
echo 向 /dewglobalfifo 写 入 新 的 数据 时 ，signalio handler O 将 会 被 调用 : 


baohua@baohua-VirtualBox:~/develop/training/kernel/drivers/globalfifo/ch9S sudo su 
# ./globalfifo test& 


[1] .25251 
# echo 1 > /dev/globalfifo 
receive a signal from globalfifo,signalnum: 29 -> globalfifo 七 est 程序 打印 


# echo hello > /dev/globalfifo 
receive a signal from globalfifo,signalnum: 29 -> globalfifo est 程序 打印 


94 Linux+1/0 


94.1 AION GNU CAIO 


Linux 中 最 常用 的 输入 /输出 〈LILO) 模型 是 同步 WO。 在 这 个 模型 中 ， 当 请 求 发 出 之 后 ， 应 用 程序 就 会 
咀 寨 ， 直 到 请 求 满足 为 止 。 这 是 一 种 很 好 的 解决 方案 ， 调 用 应 用 程序 在 等 待 /O 请 求 完 成 时 不 需要 占用 
CPU。 但 是 在 许多 应 用 场景 中 ，LIO 请 求 可 能 需要 与 CPU 消耗 产生 交 妓 ， 以 充分 利用 CPU 和 IO 提高 吞吐 


儿 9.3 摘 给 了 有 弄 步 IO 的 时 序 ， 应 用 程序 及 起 IO 动作 后 ， 和 直接 开 始 执行 ， 并 不 等 待 O 结 束 ， 它 要 么 过 
一 段 时 间 来 查询 之 前 的 IO 请 求 完成 情况 ， 要 么 IO 请 求 完 成 了 会 自动 被 调用 与 IO 完成 绑 定 的 回调 函数 。 














用 户 空 间 应 用 
TI T2 
一 一 J 一 一 一 一 一 一 一 进行 其 他 的 操作 
异步 LO 请 求 
ee sr 
上 # 行 LO 操作 | puru 
' * 内 核 空 间 驱 动 或 者 
a) 库 内 线程 
Tl T2 
一 一 一 一 一 一 一 一 一 进行 其 他 的 操 大 一 > 用 户 空 间 应 用 
HAE VOW 查询 IO 完成 情况 
b) 内 核 空间 驱动 或 者 
库 内 线程 


图 9.3 ”异步 VO 的 时 厅 


Linux 的 AIO 有 多 种 实现 ， 其 中 一 种 实现 是 在 用 尸 空间 的 glibe 库 中 实现 的 ， 它 本 质 上 是 借用 了 多 线程 
模型 ， 用 开局 新 的 线程 以 同步 的 方法 来 做 WO， 新 的 AIO 辅 助 线程 与 友 起 AIO 的 线程 以 
pthread cond signal ©) 的 形式 进行 线程 间 的 同步 。glibc 的 AIO 主 要 包括 如 下 函数 。 


l.aio read () 


aio read OO PRIA RY — TH XX] SCE FER HE FT FR RTE 2 TKS eh n] LA EARP 
Tk. Brey, ERIE. aio read 函数 的 原型 如 下 : 


Eee 


aio read () 函数 在 请 求 进行 排队 之 后 会 立即 返回 《尽管 谈 操 作 并 未 完成 )》 。 如 采 执 行 成 功 ， 返 回 但 
MAO; WRU, IME RA-1, Jeu Éernoll]f& - 


参数 aiocb (AIO I/O Control Block) £&dT e SRT Aa, URNAR ERAH IR] 
缓冲 区 。 在 产生 IO 完成 通知 时 ，aiocb 结 构 就 被 用 来 唯一 标识 所 完成 的 IO 操作 。 


2.aio write ©) 


aio write O 图 效用 来 请 求 一 个 卉 步 与 操作 。 其 图 数 诛 型 如 下 : 


Int: Gro Wri cel SLEUCLC acxo0cb "arocbp-)7 


aio write O PRAIA, 3P HE BK C ZEABOHEBA 《成 功 时 返回 值 为 0， 和 失败 时 返回 人 为 -1， 
并 相应 地 人 设置 errno) 。 


3.aio error () 
aio error () 函数 和 被 用 来 确定 请 求 的 状态 。 其 原型 如 下 : 


LHt SEO Srrort Struct AOO “a1ocbp 23 


这 个 函数 可 以 返回 以 下 内 容 。 
EINPROGRESS: 说 明 请 求 尚 未 完成 。 
ECANCELED: 说 明 请 求 个 应 用 程序 取 疹 了。 
-1: 说 明 友 生 了 错误， 具体 错误 原因 由 errno 记 录 。 
4.aio return () 


异步 0 和 同步 阻塞 VO 方 式 之 间 的 一 个 区 别 是 不 能 立即 访问 这 个 函数 的 返回 状态 ， 因 为 异步 JO 并 没有 
阻塞 在 read O 调用 上 。 在 标准 的 同步 阻塞 read O 调用 中 ， 返 回 状态 是 在 该 函数 返回 时 提供 的 。 但 是 在 
异步 /0O 中 ， 我 们 要 使 用 aio return O 图 数 。 这 个 函数 的 原型 如 下 : 


sign Struct dlach ^dql100DDp.);7 


只 有 在 aio error O 调用 确定 请 求 已 经 完成 (可 能 成 功 ， 也 可 能 发 生 了 人 错误) Zia, A MR ECT 
数 。aio return 〈) 的 返回 值 就 等 价 于 同步 情况 中 read O 或 write O 系统 调用 的 返回 值 〈 所 传输 的 字 节 数 
如 果 发 生 错 误 ， 人 返回 值 为 负数 ) 。 


代码 消 单 9.12 给 出 了 用 户 空 间 应 用 程序 进行 异步 读 操 作 的 一 个 例 程 ， 它 肖 先 打开 文件 ， 然 后 准备 aiocb 
结构 体 ， 之 后 调用 aio read (&my aiocb) 进行 提出 寞 步 恋 请 求 ， 当 aio_error (&my aiocb ) 
==EINPROGRESS， 即 操作 还 在 进行 中 时 ， 一 直 等 每 ， 结 束 后 退 过 aio return (&my aiocb ) 获得 返回 值 。 


NSIS 9.12 ”用 户 空 间 寞 步 读 例 程 


1 #include <aio.h> 

D. ouk 

3 Xr id; rer; 

4 struct alocb my Aloch; 
5 


6 Xd = GODOn("rLillebxt z U RDONLY) 7 
? at (td < 0) 
8 perror ("open"); 
9 
10/* 清 零 aiocb 结 构 体 */ 
小 GO arvoch; S1260. (Struct arobi]; 
12 
13/* 为 aiocb 请 求 分 配 数据 缓冲 区 */ 
l4my De 


Toii (ny anocbgaro Du) 
16 perror ("malloc"); 
17 


18/* 初始 化 aiocp 的 成 员 */ 


ee 

ZUmy LOCD CODE = BUFSIZE; 

Zlmy alocado offset = 0r 

2 2 

Z239ret = alo: read(emy arocb); 

24if (ret < O0) 

25 EEC "aro read"); 

26 

2/lwhile (aio error(&my aiocb) == EINPROGRESS) 
20 Continue; 

29 

S01 CDL = dlo returnen? T0656)) = 0) 4 
31 /* 获得 异步 读 的 返回 值 */ 

32} else { 

33 /* ak; 分 析 errorno */ 

34} 


5.aio suspend () 


HP Ay DE aio suspend O rRZoEBHSEUS AEE, Bleep kscm Aik. wage A 
aiocb 引 用 列表 ， 其 中 任何 一 个 完成 都 会 导致 aio suspend O 返回 。aio suspend © 的 函数 原型 如 下 : 


IDE Alo suspend( Const Struct eOobDD. "Const CDILSEtIIs 
int n, const struct timespec *timeout J); 


代码 清单 9.13 给 出 了 用 户 空 间 进 行 异 步 谈 操作 时 使 用 aio_suspend〈) RAHI. 
代码 清单 9.13 用户 空间 异步 IJO aio suspend O Pate Ao RE 


lStruüecbt &xoct ^ODLISLCIMAR LIST] 

2/* 清 零 aioct 结 构 体 链表 */ 

3bzero( (char *)cblist, sizeof(cblist) ); 
A/* 将 一 个 或 更 多 的 aiocb 放 入 aioct 的 结构 体 链 表 中 */ 
ocblist[U] = amy aLoch; 

oret = aio read(&my aiocb); 

Tret = alio suspend(ocblist, MAX LIST, NULL J; 


当然 ， 在 glibc 实 现 的 AIO 中 ， 除 了 上 述 同 步 的 等 待 方式 以 外 ， 也 可 以 使 用 信号 或 者 回调 机 制 来 异步 地 
标明 AIO 的 完成 。 


6.aio cancel () 
aio cancel OO PAZ G6 YE HL JP BUB] SAP A eR ET EN PA /Ote ok. ARW F: 


ine usó Cancel (ine Ld, Struce atoch ^alotbp); 


BGA, HP mhet LFR i Maiocbis tf WRI PRIDE Y ABA IX eh BL 


束 会 返回 AIO_CANCELED。 如 末 请 求 完 成 了 了 ， 这 个 函数 融会 返回 AIO_ NOTCANCELED. 


要 取消 对 条 个 给 定 文 件 搬 述 从 的 所 有 请 求 ， 用 户 害 要 提供 这 个 文件 的 舞 述 从 ， 并 将 aiocbp 参 数 设 置 为 


NULL。 如 果 所 有 的 请 求 都 取消 了 了， 这 个 函数 束 会 返回 AIO CANCELED; 如 果 人 至 少 有 一 个 请 求 没 有 被 取 
消 ， 那 么 这 个 函数 就 会 返回 AIO NOT CANCELED; 如 果 没 有 一 个 请 求 可 以 被 取消 ， 那 么 这 个 函数 就 会 


返回 AIO ALLDONE。 然 后， 可 以 使 用 aio error O 来 验证 每 个 AIO 请 求 ， 如 果 菏 请 求 已 经 个 取消 了 ， 那 
么 aio_error () 就 会 返回 -1， 并 有 日 errno 会 外 设置 为 ECANCELED。 


7.lio listio () 


lio listio CO 函数 可 用 于 同时 发 起 多 个 传输 。 这 个 函数 非 闸 壬 要 ， 它 使 得 用 户 可 以 在 一 个 系统 调用 中 
司 动 大 量 的 IO 操作 。1lio listio APIK Z JR n F: 


inte Lio InzSUIOT Int mode, Struct, a1ocb. YLISTI; Dt nent, Struct. S1gevent *sig )> 


mode 参 数 可 以 是 LIO WAIT 或 LIO NOWAIT. MN 用 ， 百 到 所 有 的 IO 都 完成 为 
止 。 但 是 奢 是 LIO_NOWAIT 模 型， 在 LO 操作 进行 排队 之 后 ， 访 函数 束 会 运 回 。list 是 一 个 aiocb 引 用 的 列 
了 肥大 元 系 的 个 数 是 由 nent 定 义 的 。 如 果 list 的 元 系 为 NULL，lio listio O 会 将 其 忽略 。 


^" 


代码 清单 9.14 给 出 了 用 户 空间 进行 异步 /O 操 作 时 使 用 lio listio O 函数 的 例子 。 


代码 清单 9.14 用户 空 间 异 步 JO lio listio O 函数 使 用 例 程 


]struct 2aLloco aiocbl, 8100D2; 

ZSLPUOCL aloch *LisucDMAX LIST]; 

ug ues 

A/* 准备 第 一 个 acD */ 

Deb alg tildes = id; 

ba CCbL.a10 DUI = malloot BUERSLAZETL 27 
TJaliocbi.aro nbytes = BUESIZE; 
OaloODLJaulO OLEISOL = nert OLLSSU 


9aiocbl.aio lio opcode = LIO READ; /* 异步 读 操 作 * / 
10... /* 准备 多 个 aiocpb */ 
llbzerot( (Ghar *) list, Srzeori(lrst) )3 
12 
13/* 将 aiocb 填 入 链表 * / 
141ist[0] = &aiocbl; 
15list[1] = &aiocb2; 
IETEN 
l7ret = lio listio( LIO WAIT, list, MAX LIST, NULL );  /* 发 起 大 量 I/O 操 作 * / 


上 述 代 人 码 第 9 行 中 ， 因 为 是 进行 异步 读 操 作 ， 所 以 操作 码 为 LIO READ， 对 于 写 操 作 来 说 ， 应 该 使 用 
LIO WRITE 作 为 操作 人 码 ， 而 LIO NOP 意 味 着 空 操作 。 


P DL http://www.gnu.org/software/libc/manual/html node/Asynchronous-I 002fO.html 包 含 了 AIO 库 函数 的 
详细 信息 。 


94.2 Linux 内 核 AIO 与 libaio 


Linux AIO 也 可 以 由 内 核 空间 实现 ， 异 步 /O 是 Linux 2.6 以 后 版 本 内 核 的 一 个 标准 特性 。 对 于 块 设备 而 
言 ，AIO 可 以 一 次 性 发 出 大 量 的 read/write 调 用 并 且 通 过 通用 块 层 的 IO 调度 来 获得 更 好 的 性 能 ， 用 户 程序 
也 可 以 减少 过 多 的 同步 负载 ， 还 可 以 在 业务 进 辑 中 更 灵活 地 进行 并 友 控 制 和 负载 均衡 。 相 较 于 glibc 的 用 户 
空间 多 线程 同步 等 实现 也 减少 了 线程 的 负载 和 上 下 文 切 换 等 。 对 于 网 络 设备 而 言 ， 在 socket 层 面 上 ， 也 可 
以 使 用 AIO， 让 CPU 和 网 卡 的 收发 动作 元 分 区 告 以 改善 厨 吐 性 能 。 选 择 正 确 的 IO 模型 对 系统 性 能 的 影响 很 
大 ， 有 兴趣 的 读者 可 以 参阅 著名 的 C10K 问 题 ( 指 的 是 服务 右 同 时 支持 成 和 干 上 万 个 客户 端的 问题 ， 详 见 
网 址 http://www.kegel.conyc10k.html。 


在 用 尸 空 间 中 ， 我 们 一 般 要 结合 libaio 来 进行 内 核 AIO 的 系统 调用 。 内 核 AIO 提 供 的 系统 调用 主要 包 
丘 : 


int LO. Eee Maxevents,; To Conuext t *cCtxp); 
Ene: LO deS troy (10 COn Lor sb O)? 
int do Submrtiio OODLEXE © OLX, dong Di; Struct 20Co *L9sSLlJ)3 
In XO Cancel:(10 OONLSXL © CCX, SUIUCL I000 LOCO; SLErUcL 10 event Tev); 
Ime, IO cgetevelnts(ro Con leat L CLX id; long min nr, long mv, struct 20 event “evento; 
struct timespec *timeout) ; 
void -10 Gel callbeck(Sturuce 100b ^rxoob, 10 Callback L CD)? 
void LO Prep DWrLLe(Struce IOCU “20Cb, INC Td; void *but, Size L count, Jong Long Ofiset) 7; 
VOLO: 10 prep presd(sStruct 100b ^L00D, InG Id, vord Dui; size | COUNL, Jong long OIPÍLSet)S 
vold X0 prep pwritevistrucLt 2005 rocb, Sut idp CONSE SLCPOUCL X0Vec "0v, Hb XIOVODb; 
LONG Long Oise); 
VOLO L0 prep pDreadv (Struct 1000 *10€b, ant 10, Conse, SEEUCE 10vec ^Llov. Tie XIOVOCHLD 
long long Offset); 


AIO 的 旋 与 请 求 都 用 io_submit O 下 及 。 下 及 六 通过 io prep pwrite © 和 io prep pread (2 生成 iocb 
WEE, Eio submit O 的 参数 。 这 个 络 构 体 指定 了 读 写 类 型 、 起 始 地 址 、 长 度 和 设备 标志 人 符 等 信 
思 。 读 写 请 求 下 及 之 后 ， 使 用 io_getevents O 函数 等 等 WO 完成 事件 。io_set callback O 则 可 设置 一 个 
AIO 完 成 的 回调 函数 。 


代码 清 蛙 9.15 演 示 了 一 个 人 简 捍 的 利用 libaio 同 内 核 友 起 AIO 请 求 的 模版 。 访 程序 位 于 本 书 源 代 人 
的 /kernel/drivers/globalfifo/ch9/aior.c 下， 使 用 命令 gcc aiorc-o aior-laio 编 译 ， 运 行 时 带 1 个 文本 文件 路 径 作为 
参数 ， 该 程序 会 打印 该 文本 文件 前 4096 个 字 币 的 内 容 。 


代码 清单 9.1$ ”使 用 libaio 调 用 内 核 AIO 的 范例 


l#define GNU SOURCE /* O DIRECT. Ts not POSIX */ 
2#include <stdio.h> PT for pertrort(t) */ 
3#include <unistd.h> /* Tor syscall() 7 
4#include <fcntl.h> /* © RDWR * 7 

5#include <string.h> /* memset() */ 


6#include <inttypes.h> [T uintod e 7 
7#include <stdlib.h> 


8 

Odsinclude «libàio.h» 
10 
li¢detine BUF SIZE 4096 
12 


Point main(int argo, char **argy) 
14 { 


LD IA COn Et CG GER "Us 

LG Gtrucb T6680. c5; 

Ld “Srnec, Och: Goss 

18 unsigned char “but; 

IO Serut Io cevenmb evens LLEI? 
20 EAG rec, 

zd. TAY SE 


22 

Z3 EE darge usu 

24 printf("the command formati. aior [FILE | \n") +; 
Zo exit(1); 

26 } 

2 


Zo, Xd = pen (argv[i), OlRDWER. | “OUDIRECT) 7 
29. AF. EG -< 0) 41 


30 perror("open error"); 
od goto err; 

92. 4 

09 


34 /* Allocate aligned memory */ 
29. Let. = (posix Mena ron (vod SFF eop ST2y (BUE EAE. L > 
36° SEE. reL 3S) a 


Su perrori"posrx memal ron -tarled™)4 
38 goto errl; 

99 y 

AQ memsec (but, Oy: BUE SIZE T L7 

41 


42. Let = 10 Setup (128) GCux); 
Z3 wb. FEC SS Oy). 4 


44 prinuvd" tO-SeCUD ‘CLIO D> Sre or I eL)? 
45 goto err2; 

46 } 

47 


do, f* setup TO. control, block < 
439: TO prep pread(scb, tdr Dur, BUE - S125» 0) 7 


30 

51 cbs[0] = &cb; 

DOG. NEL P XO SODDIDEDICLXS LE Cos)? 

53 if (ret !- 1) { 

54 if (ret < 0) { 

O9 攻克 
D6 } else { 

Dy Lprzntristderr, “could: not sumbrit IOS"); 
58 ) 

o9 goto err3; 

60 } 

61 


62 /* get the reply */ 
OS per I0 geusvents[cóNw Le wep sevens, NUE 
64 if (ret !- 1) { 


65 if (ret < 0) { 

66 Prnt Hao dgetevents eFrorqes. SUEOSITOLUSLOUHE 
67 } else { 

68 tprinti (stderr; “Could: not get Events" 

o ) 

FO goto err3; 

Jl  j 

72 if (events[O].res2 == 0) { 

13 Primer os ie utis 

74 } else { 

vo printf("AIO error:$s", strerror(-events[0].res)); 
TG goto err3; 

TO sg 

18 

T9! NEED Aet 10 Cestroy (eux) .) x Uy 4 

80 PINCI LO deS rO Or Or y SlLPerror TE O 

Si goto err2; 

82 ] 

8 3 


84 free(buf); 
85 close(fd); 
86 return O0; 


87 

OO err: 

OF "ULL "QUOD no et (EE) 49) 

90 prrnorq ro cdestrovoerrorvosUs OTOL OCN Tre CI] 
91] err: 

92 free (buf); 

J EFFI? 

94 close(fd); 

dO oh an a 


96 return -1; 
97 } 


9.4.3 ”AIO 与 设备 驱动 


用 户 空间 调用 io_submit O 后 ， 对 应 于 用 户 传递 的 每 一 个 iocb 结 构 ， 内 核 会 生成 一 个 与 乙 对 应 的 kiocb 


结构 。file operations $2 3^ E; AIOJTH X EP] V, va E 230: 


SSize © ("aro read) (SLrUucb Krocb. «100b Const Sslruct z0vec "10V. unsigned long 


Ar Segs, dOll t pos); 


SSIZO C ("320 Write) {Struct K:OCD "1000, CONnSLt Striet mOVec IOV; unsigned 


long nr segs, Loft t pos); 


Lhe. (AsO ISyDo) (Struct krocb *L10Ccb, inc .datasyne)g 


io submit ©) 系统 调用 间接 引起 了 fle operations 中 的 aio read () 和 aio write O 的 调用 。 


在 早期 的 Linux 内 核 中 ，aio read O 和 aio write ©) 的 原型 是 : 


ci 有 


Size t Size; Lor © pos); 


goize 1 ("210 Wre) (seuructe: Koco *10Cb, Const Char *Dubrte5, 
Size L Count, Lore © OLiser); 


在 这 个 老 的 原型 里 ， 只 人 台 有 一 个 绥 剖 区 指针 ， 而 在 新 的 原型 中 ， 则 可 以 传递 一 个 同 量 iovec， 它 人 台 有 


BZIP X 2 YIM Fhttps://lwn.net/Articles/170954/HY3¢#4 (Asynchronous I/O and vectored operations) 。 


AIO — A EH P 4% 25 [8] EF] GER FAR A, PR ee AP 2 S ATE Linuxa oz BIA OA 


解决 。 字 符 设 备 驱 动 一 般 不 需要 实现 AIO 支 持 。Linux 内 核 中 对 字符 设备 驱动 实现 AIO 的 特例 包括 
drivers/charmem.c 里 实现 的 null、zero 等 ， 由 于 zero 这 样 的 虚拟 设备 其 实 也 不 存在 在 要 去 谈 的 时 候 恋 不 到 东 
西 的 情况 ， 所 以 aio read zero O 本 质 上 也 不 包含 异步 操作 ， 不 过 从 代码 清单 9.16 我 们 可 以 一 笑 iovec 的 全 


9e 


代码 清单 9.16 zero 设备 的 aio_ read 实现 


Eee aeee Const SLEUCU 10vec *10V, 


5 unsigned long nf segs, Iorr.t pos) 
4 Size t written = 0; 

5 unsigned long 1i; 

6 Size L Pec; 

7 

8 tor (Ll = 07 1 s nr Sego; 177) 4 

9 ret = read Zero(1oCcb=-ki ILIPp; TOVIL|s LO base, 1OV i) mov en, 
10 &pos); 
11 if (ret < 0) 
12 break; 
13 written += ret; 
14 } 
16 return written written : -EFAULT; 


本 章 主 要 讲述 了 Linux 中 的 异步 WO， 寞 步 /O 可 以 使 得 应 用 程序 在 等 等 LO 操作 的 同时 进行 其 他 操作 。 


使 用 信号 可 以 实现 设备 驱动 与 用 尸 程 友之 则 的 异步 通知 ， 总 体 而 言 ， 设 备 驱 动 和 用 户 容 间 要 分 别 完 成 
3 项 对 应 的 工作 ， 用 户 空 间 设 置 文件 的 拥有 者 、FASYNC 标 志 及 捕获 信号 ， 内 核 空 间 响 应 对 文件 的 拥有 
者 、FASYNC 标 志 的 设置 并 在 资源 可 获得 时 释放 信 坊 。 


Linux 2.6 以 后 的 内 核 包 含 对 AIO 的 支持 ， 它 为 用 户 空 间 提供 了 统一 的 异步 VO 接口 。 男 外 ，glibc 也 提供 
了 一 个 不 依赖 于 内 核 的 用 户 空 间 的 AIO 支 持 。 


第 10 章 ”中 上 断 与 时 钟 
本 章 导读 


本 和 章 主 要 讲解 Linux 设 备 张 动 编程 中 的 中 断 与 定时 塔 处 理 。 由 于 中 断 服 务 程序 的 执行 并 不 存在 村 进程 
上 上 下文 中， 所 以 要 求 中 断 服 务 程序 的 时 间 要 尽量 短 。 因 此 ，Linux 在 中 断 处 理 中 引入 了 项 半 部 和 底 半 部 分 
离 有 的 机 制 。 改 外， 内 核对 时 钟 的 处 理 也 采用 中 断 方式 ， 而 内 核 软件 定时 右 最 终 依赖 于 时 钟 中 靳 。 


10.1 节 讲解 中 汤 和 定时 器 的 概念 及 处 理 流程 。 
10.2 节 讲解 Linux 中 断 处 理 程序 的 架构 ， 以 及 项 半 部 、 展 半 部 之 间 的 关系 。 


10.3 而 讲解 Linux 中 断 编 程 的 方法 ， 小 及 申请 和 释放 中 断 、 使 能 和 屏 责 中 断 以 及 中 断 撒 半 部 tasklet、 工 
作 队 列 、 软 中 靳 机 制 和 threaded irq. 


10.4 区 讲解 多 个 设备 共有 再 同一 个 中 断 亏 时 的 中 断 处 理 过 程 。 


10.5 放 和 10.6 直 分 别 讲 解 Linux 设 备 张 动 编程 中 定时 带 的 编程 以 及 凡 核 延 时 的 方法 。 


10.1. PTS ERY as 


Aria Brie JRCPUTESATTTEHP nite A, B SRE ASF a EE, CPU A FE ET SA 
ÍT, FERMERE, AeIE SEHE Je SCAB E RAET A P TII] E SE A A 


根据 中 断 的 来 源 ， 中 断 可 分 为 内 部 中 断 和 外 部 中 断 ， 内 部 中 断 的 中 断 源 来 和 目 CPU 内 部 〈 软 件 中 断 指 
、 洲 出 、 除 法 错误 等 ， 例 如 ， 操 作 系 统 从 用 户 态 切换 到 内 核 态 需 售 助 CPU 内 部 的 软件 中 断 ) ， 外 部 中 断 
的 中 断 源 来 目 CPU 外 部 ， 由 外 议 提 出 请 求 。 


根据 中 断 是 售 可 以 屏 和 藤 ， 中 断 可 分 为 可 屏 向 中 断 与 不 可 屏 秀 中 断 ONMD ， 可 屏 贡 中 断 可 以 通过 议 置 
HH ria dS ey TE es se JC EI. BR. TATA FES BI py, Ti AN AY BEC] TAS Be 5c BE Wc 
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IPA TIS HR Ss mj UI BI n] rs EIS] BIR a, it A kas BAP Br S00] by Ok UT 
AN Te] rpler c BY RAAHAA Stk. 3E TR] Sc PN a-Si eS Ak, BEATA ike, B 
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JE TH] ec EP Br EH CP E PHP B RI AREE A DLE e 
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服务 程序 。 


代码 清单 10.1 非 辐 量 中 断 服务 程序 的 典型 结构 


1 irq handler () 

Z. 4 

3 - 

4 int int src = read int status();  /* 读 硬件 的 中 断 相 关 寄存 器 */ 
5 switch (int src) { /* 判断 中 断 源 */ 
6 case DEV A: 

1 dev a handler(); 

8 break; 

9 case DEV B: 
10 dev D Handler ().; 
11 break; 


13 default: 
14 break; 
L5 } 


PRAT AUR xS6PCTEA E BS Hate elas (PIC) , YFÉMCUP Basen f PIC. AUTE 
803861, PICJÉWS Hi8259A® HARK. HWE SPICM SESS. FER a nI A BESET ARE P 
TRAS, WE- Aaa A ST MLASK 49 46 48 70, Jer Pe A APEND A TE 28 5c BX 


REIN se CE ABR EXE ORATOR SEL, — 10. 1 TAN AAS A UAE E I n] ET] BE EN i 
(PIT) FJ LTEERZE, “ERS BA, SEKIER, A4 H TP 1 Tc E TP BEL 


《计数 目标 ) 比较 ， 奉 相等 ， 证 明 计数 周期 满 ， 并 产生 定时 融 中 断 且 复位 目前 计数 但。 


计数 值 


目前 计数 值 
(时 钟 脉冲 到 来 时 ， 增 1) 





一 一 时 钟 输入 


ss NN zd E LC 


图 10.1 ”PIT 定时 器 的 工作 原理 


在 ARM 多 核 处 理 需 里 最 彰 用 的 中 断 控 制 器 是 GIC (Generic Interrupt Controller〉， 如 图 10.2 所 示 ， 它 支 
FES AS AY AN P WT o 
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图 10.2 ARM 多 核 处 理 器 里 的 GIC 


SGI (Software Generated Interrupt) : 软件 产生 的 中 断 ， 可 以 用 于 多 核 的 核 间 通信 ， 一 个 CPU 可 以 通过 
写 GIC 的 寄存 器 给 另外 一 个 CPU 产生 中 断 。 多 核 调 度 用 的 IPI WAKEUP, IPI TIMER. 
IPI RESCHEDULE, IPI CALL FUNC, IPI CALL FUNC SINGLE, IPI CPU STOP, IPI IRQ WORK, 
IPI COMPLETION 都 是 由 SGI 产 生 的 。 


PPI (Private Peripheral Interrupt) : 霖 个 CPU 私有 外 设 的 中 断 ， 这 类 外 议 的 中 断 只 能 有 给 绑 定 的 那个 


CPU. 
SPI (Shared Peripheral Interrupt) : HZSM AJP A, xx 2S H HT A DA EH IEA] — 1 CPU. 
对 于 SPI 类 型 的 中 断 ， 内 核 可 以 通过 如 下 API 设 定 中 断 触 发 的 CPU 核 : 


extern Int irg set arrinrty (Unsigned xmc ird; Conse Struct cpumask ^m 


在 ARM Linux 默 认 情 况 下 ， 中 汤 都 古 在 CPU0 上 产生 的 ， 比 如 ， 我 们 可 以 通过 如 下 代码 把 中 汤 irq 设 定 
到 CPU i 上 去 : 


itg Sec arrinity(lrgq, ecpumask or(1)); 


10.2. Linux} by Xb EE FE FE Ze MJ 


Vc BJ HR IET WA A EEE TE TS V] EAST, RAR E ey TEK NY J OR A BAO HPT ARS PEP IS 
量 短小 精怪 。 但 是 ， 这 个 民 好 的 愿望 往往 与 现实 并 不 吻合 。 在 大 多 数 真 实 的 系统 中 ， 当 中 断 到 来 时 ， 
成 的 工作 往往 并 不 会 是 短小 的 ， 它 可 能 要 进行 较 大 量 的 耗 时 处 理 。 


图 10.3 描 述 了 Linux 内 核 的 中 断 处 理 机 制 。 为 了 在 中 断 执行 时 间 尽 量 短 和 中 断 处理 需 完成 的 工作 尽量 
大 之 轩 找 到 一 个 平衡 点 ，Linux 将 中 断 处 理 程序 分 解 为 两 个 半 部 : 项 半 部 (Top Half) 和 展 半 部 (Bottom 
Half) 。 


上 半 部 
(紧急 的 硬件 操作 ) 





图 10.3 ”Linux 中 上 断 处 理 机 制 


顶 半 部 用 于 完成 尽量 少 的 比较 紧急 的 功能 ， 它 往往 只 是 徐 单 地 读 取 寄存 磺 中 的 中 类 状 态 ， 并 在 清除 中 
rs as Je BRETT CS TAT EN DTE. “OEE TE AAT Fak A aS JER AE a AD SRE Pp E 91 V t PNY JERE UT BÀ P] A 
去 。 这 样 ， 顶 半 部 执行 的 速度 融会 很 忆 ， 从 而 可 以 服务 更 多 的 中 断 请 求 。 


现在 ， 中 断 处 理工 作 的 重心 瓯 沙 在 了 撒 半 部 的 头 上 ， 需 用 它 来 完成 中 断 事 件 的 绝 大 多 数 任 务 。 撒 半 部 
几乎 做 了 中 上 断 处 理 程 序 所 有 的 事情 ， 而 且 可 以 彼 新 的 中 断 打 断 ， 这 也 是 展 半 部 和 项 半 部 的 最 大 不 同 ， 因 广 
顶 半 部 往往 被 设计 成 不 可 中 断 。 展 半 部 相对 来 说 并 不 是 非常 系 候 的 ， 而 且 相 对 比较 耗 时 ， 不 在 便 件 中 断 服 
务 程序 中 执行 


尽 宫 项 半 部 、 展 半 部 的 结合 能 够 改善 系统 的 啊 应 能 力 ， 但 征 ， 僵 化 地 认为 Linux 议 备 张 动 中 的 中 断 处 
理 一 定 要 分 两 个 半 部 则 走 不 对 的 。 如 琳 中 断 要 处 理 的 工作 本 映 很 少 ， 则 完全 可 以 直接 在 项 半 部 全 部 完成 。 





其 他 操作 系统 中 对 中 断 的 处 理 也 采用 了 类 似 于 Linux 的 方法 ， 真 正 的 硬件 中 断 服 务 程 序 都 应 该 
尽量 短 。 因 此 ， 许 多 操作 系统 都 提供 了 中 断 上 下 文 和 非 中 断 上 下 文 相 结合 的 机 制 ， 将 中 断 的 耗 时 工作 保留 
到 非 中 断 上 下 文 去 执行 。 例 如 ， 在 VxWorks 中 ， 网 络 设备 包 接 收 中 断 到 来 后 ， 中 断 服务 程序 会 通过 
netJobAdd〈) 函数 将 耗 时 的 包 接收 和 上 传 工 作 交 给 tNetTask 任 务 去 执行 。 


在 Linux 中 ， 全 看 /proc/interrupts 文 件 可 以 获得 系统 中 中 靳 的 统计 信息 ， 并 能 统计 出 每 一 个 中 肠 写 上 的 
中 断 在 每 个 CPU 上 友 生 的 人 次数， 具体 如 图 10.4 所 示 。 


baohuagbaohua-VirtualBox://sys/module/globalmemS cat /proc/interrupts 


CPUO 
119 
14444 
0 

0 

2483 

0 
11679 
14749 
17379 
105402 
30 

0 
564521 
0 

0 

0 

0 
263390 
52 

830 


CPU1 


Ooooocoococcocoocoo 


382214 
50 
1201 

0 

0 

0 


IO-APIC-edge 
IO-APIC-edge 
IO-APIC-edge 
IO-APIC-fasteoi 
IO-APIC-edge 
IO-APIC-edge 
IO-APIC-edge 


timer 
18042 
rtco 
acpi 
18042 
ata piix 
ata piix 


IO-APIC 
IO-APIC 
IO-APIC 
IO-APIC 


19-fasteoi 
20-fasteoi 
21-fasteoi 
22-fasteoi 


ehci_hcd:usbi, etho 
vboxguest 
0000:00:0d.0 

ohci hcd:usb2 


Non-maskable interrupts 
Local timer interrupts 
Spurious interrupts 


Performance monitoring interrupts 


IRQ work interrupts 

APIC ICR read retries 
Rescheduling interrupts 
Function call interrupts 


TLB shootdowns 


Thermal event interrupts 
Threshold APIC interrupts 
Machine check exceptions 
Machine check polls 
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10.3 Linux? Wrin FE 


10.3.1 FATS ARE Wr 


fE Linux 14 IKAP, EH P aA m e tg AE DOG] NLIS] FR, FNE H N IATER 
request irq () 和 free irq © PRA. 


1. 申 请 irq 


LE 
const char *name, void *dev); 


irq 征 要 申请 的 使 件 中 断气。 


handler 是 同系 统 登 记 的 中 汤 处 理沙 数 〈 顶 半 部 ) ， 是 一 个 回调 函数 ， 中 汤 友 生 时 ， 系 统 调 用 这 个 也 
数 ，dev 参 数 将 被 传递 给 它 。 


irqflags 是 中 断 处 理 的 属性 ， 可 以 指定 中 断 的 触发 方式 以 及 处 理 方 式 。 在 触及 方式 方面 ， 可 以 是 
IRQF TRIGGER RISING. IRQF TRIGGER FALLING. IRQF TRIGGER HIGH. IRQF TRIGGER LOW 
Fo TEMBPEUIXXUTIBI, XXX EL SIRQF SHARED, Jljzezs ^ iie Akte AI, deve EE TEX 28 HIT IRA TE 
序 的 私有 数据 ， 一 般 设 置 为 这 个 设备 的 设备 结构 体 或 者 NULL。 


request_irq O 返回 0 表示 成 功 ， 返 回 -EINVAL 表 示 中 断 亏 无 效 或 处 理 国 数 指 针 为 NULL， 返 回 - 
EBUSY 表 示 中 断 己 经 被 占用 且 不 能 共 宇 。 


hive. devm. request. arg(Ssctruce device “dev; unsigned ant Xrg, LXrg:hangler.t SORTE 
unsigned long irqflags, const char *devname, void *dev id); 


此 函数 与 request irq ©) 的 区 列 是 devm 开头 的 API 申 请 的 是 内 核 “managed” 的 资源 ， 一 般 不 需要 在 出 
错 处 理 和 remove O 接口 里 再 显 式 的 释放 。 有 点 类 似 Java 的 垃圾 回收 机 制 。 比 如 ， 对 于 at86rf230 驱 动 ， 如 
下 的 补丁 中 改 用 devm request irq ©) JE UU ER f free irq O , YAN J OTN A TZ commit ID 是 652355c5。 


--- a/drivers/net/ieee802154/at86rf230.c 
+++ b/drivers/net/ieee802154/at86rf230.c 
CE =~ LI90, 2471190, 2206 Static int at90rr250 Probe(struct spi device "Sp 

1f (rc) 

goto err nw Init; 
LC = reguest. lrg(splie irg handler; TIROF SHARED; 
dev name(&spi-»dev), 1p); 
= devm request 121g (éspi-Sdev, SPL- ilds irq handler, LROF SHARED, 
dev name (&spi->dev), lp); 


+ + I | 
H 
Q 


lr (re) 
goto err Hw Init; 
/* Read irq status register to reset irq line */ 
re = gU55rI220 read subreg(lp, RG IRO STATUS, Uxit, Oy &status); 
liq (rc) 
= GOTO Grr Lig; 
+ goto err hw init; 
ro = leespa lod. register devroce(lp-^devs 


Lt (rC) 
= Goto err arg; 
+ goto err hw init; 
recura roj 
—err rd: 
一 free irq(spi->irq, lp); 
err nw init: 
flush work(&lp-»irqwork); 
SPL Seu devdata(sph, NULL)? 
ad -1232,74+1230,6@@ static int at86rf230 remove(struct spi device *spi) 
atocorr230 write subreg(lp, Sk IRO MASK; 0); 
ieee802154 unregister device(lp-»dev); 
- free irg(spi->irg,; Ip); 
flush work(&lp-»irqwork); 
LI (gpro is valid(pdata--slp tr)) 


顶 半 部 handler 的 类 型 irq_handler t€ XX: 


typeder arqreturm L (“irg handler C) (int, vaid 9); 
typedef int irgreturm t; 


2. 释 放 irq 
与 request irq O 相对 应 的 函数 为 ffee irq © , free irq O 的 原型 为 : 
vöid ree irg(ünsigned Int L1f10,VOz0.'*gev I0); 


free irq OO 中 参数 的 定义 与 request irq. OO 相同 。 


10.3.2. f BERI BE ic rp ST 


FAJ34P ER BOS F BE i TSP BS: 


void disable argtine Iq); 
vold Giseble irq nosSyncirht 253g); 
vord enable tro (iin arg); 


disable irq nosync () disable irq O 的 区 列 在 于 前 者 立即 返回 ， 而 后 者 等 竺 目前 的 中 断 处 理 完 
成 。 由 于 disable irq O 会 等 待 指定 的 中 断 被 处 理 完 ， 因 此 如 有 果 在 n 亏 中 断 的 项 半 部 调用 disable irq (n) , 
会 引起 系统 的 死 锁 ， 这 种 情况 下 ， 只 能 调用 disable irq nosync (n) 。 


下 列 两 个 函数 (或 宏 ， 具 体 实现 依赖 于 CPU 的 体系 结构 ) 将 屏蔽 本 CPU 内 的 所 有 中 断 : 


detine local irq save(tlags) «.«. 
void local arg disable (void); 


六 者 会 将 目前 的 中 断 状 态 保 留 在 flags 中 〈 注 意 flags 为 unsigned long 关 型 ， 被 直接 传递 ， 而 不 是 通过 指 
TO ， 后 者 直接 茶 目 中断 而 不 保存 状态 。 


与 上 述 两 个 茶 止 中 断 对 应 的 恢复 中 断 的 函数 《或 宏 ) 是 : 


#oeTine local irq restore (flags) 2s 
void local irq enable (void); 


以 上 各 以 local 开头 的 方法 的 作用 范围 是 本 CPU 内 。 


10.3.3” 展 半 部 机 制 


Linux 实 现 奔 半 部 的 机 制 主要 有 tasklet、 工 作 队 列 、 软 中 断 和 线程 化 irq。 


] .tasklet 


tasklet， 并 将 其 与 my_tasklet_funce() 这 个 函数 绑 定 ， 而 传 入 这 个 函数 的 参数 为 data。 


Ay 


taskletHY BEAL Ber, "BIA T EP CEA, SATIN LH TS Ze IE I EIR RITA mt 
义 tasklet 及 其 处 理 函 数 ， 并 将 两 者 天 联 则 可 ， 例 如 : 
void my tasklet func (unsigned long); /* 定 义 一 个 处 理 函 数 */ 


DECLARE TASKLET (my tasklet, my tasklet func, data); 
/ * 定 义 一 个 Lasklet 结 构 my tasklet, 与 my tasklet func (data) 函数 相关 联 x / 


代码 DECLARE TASKLET (my tasklet, my tasklet func, data) 实现 了 定义 名 称 为 my tasklet 的 


在 需要 调度 tasklet 的 时 候 引 用 一 个 tasklet schedule ©) 函数 束 能 使 系统 在 适当 的 时 候 进 行 调度 


basklet Schecule (tmy ws 


ff H taskletF 73 I AF BE Ab 88 rp Dr EP) oc ee STE re RC Ss 810.2 RN CM STAB E 


) 。 


代码 清单 10.2 tasklet 使 用 模板 


1/* 定义 七 aSK1Let 和 底 半 部 函数 并 将 它们 关联 */ 
2void xxx do tasklet(unsigned long); 


3DECLARE TASKLET (xxx tasklet, xxx do tasklet, 0); 


4 
5/* 中 断 处 理 底 半 部 * / 
6void xxx do tasklet (unsigned long) 


11/* 中 断 处 理 顶 半 部 */ 

l2irqreturn t xxx interrupt(int irq, void “dev id) 
Rs a 

14 ... 

15 tasklet scnedule(&xxx tasklet); 


19/* 设备 驱动 模块 加 载 函 数 x / 

2010 de c tne yon.) 

21.1 

Le mx 

23 /* 申请 中 断 */ 

24. ae 
25 Oy “se, NULG? 

ZO auos 

21 return IRU HANDLED; 

zo) 

29 

30/* 设备 驱动 模块 卸载 函数 */ 

3lvoid | exit xxx exit (void) 

324 

Ce 46% 

34 /* 释放 中 断 */ 

20 Xree Lrg(Xxx Arg; Xxx Ann erru pL); 


Y — 


过 


一 一 人 


ÍT: 


ry 


KE 


OO axe 
SN 


ERETRIA Fr PT (24257) , FREER UESTRE C (B357T) 。 对 应 


Txxx irq 的 中 断 处 理 程 序 裤 设置 为 xxx_interrupt O 困 数 ， 在 这 个 图 数 中 ， 第 15S 行 的 
tasklet schedule (&xxx tasklet) 调度 被 定义 的 tasklet 函 数 xxx do tasklet O 在 适当 的 时 候 执行 。 


2. 工 作 队 列 


工作 队列 的 使 用 方法 和 tasklet 非 党 相似 ， 但 是 工作 队列 的 执行 上 下 文 是 内 核 线 程 ， 因 此 可 以 调度 和 睡 


眠 。 下 面 的 代码 用 于 定义 一 个 工作 队列 和 一 个 底 半 部 执行 函数 : 


struct work struct my wq; /* 是 及 二 下 工作 队列 */ 
void my wq func(struct work struct *work); /* se ASAD BE * / 


通过 INIT_ WORK ©) 可 以 初始 化 这 个 工作 队列 并 将 工作 队列 与 处 理 函 数 绑 定 : 


INIT WORK(&my wq, my wq func); 
/* 初始 化 工作 队列 并 将 其 与 处 理 函 数 绑 定 */ 


Hjtasklet schedule O 对 应 的 用 于 调度 工作 队列 执行 的 函数 为 schedule work ©) , Zl: 


schedule work(&my wq); /* 调度 工作 队列 执行 */ 


与 代 但 清单 10.2 对 应 的 使 用 工作 队列 处 理 中 断 展 半 部 的 说 备 张 动 程序 模板 如 代 但 清单 10.3 所 示 《 仅 包 


eS PTAA ABAD) 。 


代码 清单 10.3 工作 队列 使 用 模板 


l/* 定义 工作 队列 和 关联 函数 * / 

2struct work struct xxx wq; 

3vold xxx do work(struct work struct *work); 
4 

5/* 中 断 处 理 底 半 部 * / 

6void xxx do work(struct work struct *work) 


11/* 中 断 处 理 顶 半 部 */ 
lorrqreturn P Xxx IN erru p (int XEg. Vold “dev 1d) 
154 

14 ... 

15 schedule work(&xxx wq); 
Ur m 

17 return IRQ HANDLED; 

T6] 

19 

20/* 设备 驱动 模块 加 载 函数 */ 
2lint xxx init (void) 


24 

20 x2 

24 /* 申请 中 断 */ 

29 pesult = fcequest 179 (xxx Arf], Xxx Snmterrtupt, 
26 D, Tax. NULL)? 

21 


28 /* 初始 化 工作 队列 */ 
29 INIT WORK(&xxx wq, xxx do work); 


31} 

32 

33/* 设备 驱动 模块 卸载 函数 */ 

34void xxx exit (void) 

2:94 

OO xm 

37 /* 释放 中 断 */ 

290 Trees LPO (XX irg; XXX TNLELEUDL)S 
JU i. 

40] 


EIS 10.2 AEE ERRET E BET BE RR LER BO Y 9845 LTERA PURIS (29 
ÍT) 。 


工作 队列 早期 的 实现 是 在 每 个 CPU 核 上 创建 一 个 worker 内 核 线 程 ， 所 有 在 这 个 核 上 调度 的 工作 都 在 该 
worker 线 程 中 执行 ， 其 并 发 性 显然 兰 强 人 意 。 在 Linux 2.6.36 以 后 ， 转 而 实现 了 “Concurrency-managed 
wotrkqueues”， 稍 称 cmwq，cmwq 会 目 动 维护 工作 队列 的 线程 池 以 提高 并 及 性 ， 同 时 保持 了 API 的 回 后 碌 


a BP 
SJN 


2s 
3. 软 中 新 


ERAT CSoftirg) 也 是 一 种 传统 的 辰 半 部 处 理 机 制 ， 它 的 执行 时 机 通常 是 项 半 部 返回 的 时 候 ，tasklet 
是 基于 软 中 断 实 现 的 ， 因 此 也 运行 于 软 中 断 上 下 文 。 


在 Linux 和 内核 中 ， 用 softirq_action 结 构 体 和 表征 一 个 软 中 新， 这 个 结构 体 包含 软 中 断 处 理 函 数 指 针 和 传递 
给 该 函数 的 参数 。 使 用 open softirg〈) ER n] EACH PDT NET] KB ERA, fraise softirq © 函数 可 以 
fi A ^ ERAT o 


软 中 断 和 tasklet 运 行 于 软 中 断 上 和 下文， 仍然 属于 原子 上 下 文 的 一 种 ， 而 工作 队列 则 运行 于 进程 上 下 
文 。 因 此 ， 在 软 中 断 和 tasklet 处 理 函 数 中 不 允许 睡眠 ， 而 在 工作 队列 处 理 函 数 中 人 允许 睡眠 。 


local bh disable Ò 和 local bh enable O 是 内 核 中 用 于 茶 止 和 使 能 软 中 断 及 tasklet 搬 半 部 机 制 的 函 
数 。 


内 核 中 采用 softirq 的 地 方 包括 HI SOFTIRQ. TIMER SOFTIRQ, NET TX SOFTIRQ、 
NET RX SOFTIRQ、SCSI SOFTIRQ. TASKLET SOFTIRQ 等 ， 一 般 来 说 ， 驱 动 的 编写 者 不 会 也 不 宜 直 
接 使 用 softirgq。 


第 9 章 异 步 通知 所 基于 的 信号 也 类 似 于 中 断 ， 现 在 ， 总 结 一 下 硬 中 断 、 软 中 断 和 信号 的 区 别 ， 硬 中 断 
是 外 部 设备 对 CPU 的 中 断 ， 软 中 断 是 中 断 底 半 部 的 一 种 处 理 机 制 ， 而 信号 则 是 由 内 核 (或 其 他 进程 ) 对 某 
个 进程 的 中 断 。 在 涉及 系统 调用 的 场合 ， 人 们 也 常 说 通过 软 中 断 〔 例 如 ARM 为 swi) 陷入 内 核 ， 此 时 软 中 
断 的 概念 是 指 由 软件 指令 引发 的 中 断 ， 和 我 们 这 个 地 方 说 的 softirq 是 两 个 完全 不 同 的 概念 ， 一 个 是 

-不 


software, 是 soft。 


需要 特别 说 明 的 是 ， 软 中 断 以 及 基于 软 中 断 的 tasklet 如 果 在 某 段 时 间 内 大 量 出 现 的 话 ， 内 核 会 把 后 续 
软 中 断 放 入 ksoftirqd 内 核 线程 中 执行 。 总 的 来 说 ， 中 断 优 先 级 高 于 软 中 断 ， 软 中 断 又 高 于 任何 一 个 线程 。 
软 中 断 适 度 线程 化 ， 可 以 缓解 高 负载 情况 下 系统 的 响应 。 


4.threaded irq 


在 内 核 中 ， 除 了 可 以 通过 request irq ©) 、devm request irq O 申请 中 断 以 外 ， 还 可 以 通过 
request threaded irq () 和 devm request threaded irq © 申请 。 这 两 个 函数 的 原型 为 : 
int eguen threaded itqiunsigned ni irq, irg handler ct handler, 
LEG handler c Thread in, 
unsigned long flags, const char *name, void *dev); 
une: devm feguest threaded tq (struct. device *dev, unsigned sant 1rd; 
irq handler t handler, irq handler t thread fn, 


unsigned long irgflags, const char *devname, 
void *dev ad); 


由 此 可 见 ， 它 们 比 request irq © ~ devm request irq () 多 了 一 个 参数 thread fn. Aix pA API iii | 


源 的 时 候 ， 内 核 会 为 相应 的 中 汤 与 分 配 一 个 对 应 的 内 核 线程 。 注 症 这 个 线程 只 针对 这 个 中 汤 写 ， 如 果 其 他 
中 断 也 通过 request threaded irq O 申请 ， 目 然 会 得 到 新 的 内 核 线程 。 


参数 handler 对 应 的 函数 执行 于 中 断 上 下 文 ，thread 和 参数 对 应 的 函数 则 执行 于 内 核 线程 。 如 果 handler 
结束 的 时 候 ， 返 回 值 是 IRQ_WAKE_THREAD， 内 核 会 调度 对 应 线程 执行 thread_ 甸 对 应 的 函数 。 


request threaded irq () 和 devm request threaded irq © 支持 在 irgflags 中 设置 IRQF ONESHOT 标 记 ， 

这 样 内 核 会 自动 帮助 我 们 在 中 断 上 下 文中 屏蔽 对 应 的 中 断 号 ， 而 在 内 核 调度 thread_ 血 执 行 后 ， 重 新 使 能 该 

中 断 号 。 对 于 我 们 无 法 在 上 半 部 清除 中 断 的 情况 ，IRQF ONESHOT 特 别 有 有 用， 避免 了 中 断 服务 程序 一 退 
出 ， 中 断 就 洪 泛 的 情况 。 


handler 参 数 可 以 设置 为 NULL， 这 种 情况 下 ， 内 核 会 用 献 认 的 irq_default_primary handler O RE 
handler， 并 会 使 用 IRQF ONESHOT 标 记 。irq default primary handler O 定义 为 : 


ja 

* Default primary interrupt handler for threaded interrupts. Is 

^ assigned as primary handler when request threaded irq 1s called 

* with handler == NULL. Useful for oneshot interrupts. 

a 
SELL TrForeturn t irg derault primary Bandler (inc. Irq; vord “dev cd) 
{ 

return IRQ WAKE THREAD; 
} 


10.3.4 ”实例 ，GPIO 按 键 的 中 断 


drivers/input/keyboard/gpio keys.czé —  JBCZ Vd 8E Er E RIGPIOJZ SERE], 73 f LEZIS ENF XE HJ FER 
板 上 工作 ， 通 第 只 需要 修改 arch/arm/mach-xxx 下 的 板 文 件 或 者 修改 device tree 对 应 的 dts。 访 张 动 会 为 每 个 
GPIO 申 请 中 汤 ， 在 gpio keys setup key O 六 数 中 进行 。 注 意 最 后 一 个 参数 bdata， 会 收 传 入 中 靳 服务 程 
To 


代码 清单 10.4 GPIOJÈ EIKA h Lr FR ds 


locatio nnt gplo keys setup key (Struct Platiorm device “pdev, 


Z Struct input dev “input, 

3 SEEUC gpio Dutton dala “~bdatca, 

4 const Struct gpio keys button ^bütton) 
2d 

6 

7 

o. Error = Xeguest any context 179 (bdata-lird, Sr, 1ra lags; desc, bdata); 
9 if (error < O) { 
10 dev err(dev, "Unable to claim irq $d; error %d\n", 
11 bdata-»irg, error); 
12 goto ral 
13 4} 

14 

15] 


第 8 行 的 request any context irq O tk YaAGPIOPFE l| 28s AN E 2k" F ze f Nthreaded irq2 C EK 
用 request irq. () 还 是 request threaded irq () . —ZHGPIO 〈 如 32 个 GPIO) 虽然 每 个 都 提供 一 个 中 断 ， 并 
且 都 有 中 汤 写 ,但 是 在 价 件 上 一 组 GPIO 通 党 是 散 侠 在 上 一 级 的 中 汤 控 制 器 上 的 一 个 中 肠 。 


request any context irq. O 也 有 一 个 变 体 是 devm request any context irq () 。 
在 GPIO 按 刍 驱 动 的 remove key O 函数 中 ， 会 释放 GPIO 对 应 的 中 断 ， 如 代码 清单 10.5 所 示 。 
代码 清单 10.5 ”GPIO 按 键 驱动 中 断 释放 


leStatic word gpro remove key (struct gpio Dutton Gata *bdata) 


Z4 

3 Tree aXq(DOata-1rg, Ddata) 7 

4 if (bdata->timer debounce) 

5 del timer Sync(sbdata--timer); 

6 cancel work sync (&bdata->work) ; 

f LI (Opi0- ne valrdibdatà-cbutton-^gpoo)) 
8 gpuo Tree (bdata-=-but Eon gpIOo 


GPIOT1Z BE Jp BY HY HR Bp Ach FE Ee ay, AR HANAN ETATER, OR EAE, ogee 
10.6 所 示 。 


代码 清单 10.6” GPIOTZBEUXzJ] FH Ir Ab TUER FE 


lSLatrio AXrdgreturn © gpio keys gpro 19r(rinuü irg; void ^dev xd) 
23 

3 Struct Op10 button data *bdata = dev id; 

4 


BUG. ONC ESL = Ddarva= Sp) 

6 

J if (bdata->button->wakeup) 

8 pm Stay awake(bdata-^input-^dev.parent); 
9 LL (bdata=>timer debounce) 
10 mod txmer(sbdata--staimer, 
IX Titles + sees: cuo jillres(Ddabto-»timer debounce). 
12 else 
TS schedule work(&bdata-»work); 

14 

15 return IRQ HANDLED; 

16} 


第 3 行 直接 从 dev_ id 取出 了 bdata， 这 就 是 对 应 的 那个 GPIO 键 的 数据 结构 ， 之 后 根据 情况 启动 timer 以 进 
行 debounce 或 者 直接 调度 工作 队列 去 汇报 按键 事件 。 在 GPIO 按 键 驱 动 初始 化 的 时 候 ， 通 过 
INIT WORK (&bdata->work, gpio keys gpio work func) 初始 化 了 bdata->work， 对 应 的 处 理 函 数 是 
gpio keys gpio work func © ， 如 代码 清单 10.7 所 示 。 


代码 清单 10.7 ”GPIO 按 键 驱动 的 工作 队列 底 半 部 


IS bate vord gpao-keys Oplo work .FUNnC(Striuet Work -SsUruct. *work) 


Z1 

3 struct gpro Hutton data “~bodata = 

4 container Of (WwOrk, SUPUCL gpro button: datar work); 
S 

6 gpio keys gpio report event (bdata); 

J 

8 if (bdata->button->wakeup) 

9 pm relax (bdata=-inpur--dév.parenc)'; 
es 


观察 其 中 的 第 3~4 行 ， 它 通过 container of ©) Hi work struct 反 回 解析 出 了 bdata。 原 因 是 
work structA E EXE MEY, BHKAEgpio button data 结 构 体 内 。 旗 者 朋友 们 应 该 掌 握 Linux 的 这 种 可 以 到 
处 获取 一 个 结构 体 指 针 的 技巧 ， 它 实际 上 类 似 于 面 同 对 象 里 面 的 “this” 指 针 。 


Surücp gpro button data. d 
Const "Struct ro Keys DUuLLton *Dutbonr 
Struct input dev "r:nput; 
Struct. Cimer Isc “camer; 
struct work struct work; 
unsigned int timer debounce; J= in MSCS * 7 
unsigned int irq; 
cpInlo0k T 2057 
bool disabled; 
bool key pressed; 


10.4 byte eS 


e 7 a FEE AR ME FTG FN Te OU LES Pas RS Z8 CUR] IZ ETE, Linuxcare. PT 
XE FT FR CEPI S A TYE 


1) 共享 中 断 的 多 个 设备 在 申请 中 断 时 ， 都 应 该 使 用 了 豚 QF SHARED 标 志 ， 而 且 一 个 设备 以 
IRQF SHARED 申 请 茶 中 断 成 芒 的 前 所 是 该 中 断 未 航 申 请 ， 或 议 中 断 虽 然 航 申请 了 ， 但 是 之 前 申请 该 中 贿 
的 所 有 设备 也 都 以 IRQF SHARED 标 志 申 请 该 中 断 。 


2) 尽管 内 核 模 块 可 访问 的 全 局 地 址 都 可 以 作为 request irq (..., void*dev id) 的 最 后 一 个 参数 
dev id， 但 是 设备 结构 体 指针 显然 是 可 传 入 的 最 佳 参 数 。 


3) 在 中 断 到 来 时 ， 会 遇 历 执行 共享 此 中 断 的 所 有 中 断 处 理 程序 ， 直 到 有 某 一 个 函数 返 
IRQ_HANDLED。 在 中 新 处 理 程序 项 半 部 中 ， 应 根据 硬件 寄存 器 中 的 信息 比照 传 入 的 dev_id 参 数 迅 速 地 判 
断 是 否 为 本 设备 的 中 断 ， 咎 不 是 ， 应 迅速 返回 隔 Q_NONE， 如 网 10.$ 所 示 。 


共享 中 断 到 来 
N 


是 否 为 本 设备 中 断 





处 理 中 断 ， 调 度 下 半 部 


图 10.5 去 孚 中 断 的 处 理 
代码 清单 10.8 给 出 了 使 用 共享 中 断 的 设备 驱动 程序 的 模板 《〈 仅 包含 与 共享 中 断 机 制 相 关 的 部 分 ) 。 
代码 清单 10.8 ”共享 中 断 编 程 模板 
Mec ———— 


int status = read int status(); /* 获知 中 断 源 */ 


5 

6 if (!is myint (dev id,status)) /* 判断 是 否 为 本 设备 中 断 * / 
7 return IRQ NONE; /* 不 是 本 设备 中 断 ， 立 即 返回 */ 
8 

9 /* 是 本 设备 中 断 ， 进 行 处 理 * / 

1 -— 

11 return IRQ HANDLED; /* REIRO HANDLDLED 表 明 中 断 已 被 处 理 */ 
12] 

13 


14/* 设备 驱动 模块 加 载 函数 */ 


lorut xxx Tnit (void) 


18 /* 申请 共享 中 断 * / 
L9 result = peoguest LOQgQSUn -Tro XX LIDterrupr, 
20 IROF SHARED, "xxx", xxx dev); 


24/* 设备 驱动 模块 卸载 函数 * / 
25void xxx exit (void) 
26 { 


21 ee 

28 /* 释放 中 断 */ 

29 free irq(xxx irq, xxx interrupt); 
30 

21] 


10.$ Welt a 
10.5.1 ”内 核定 时 器 编程 


软件 意义 上 的 定时 器 最 终 依 赖 硬件 定时 右 来 实现 ， 内 核 在 时 钟 中 断 发 生 后 检测 各 定时 器 是 否 到 期 ， 到 
期 后 的 定时 峰 处 理 函 数 将 作为 软 中 断 在 撒 半 部 执行 。 实 质 上 ， 时 钟 中 断 处 理 程序 会 唤起 TIMER_SOFTIRQ 
软 中 断 ， 运 行当 前 处 理 器 上 到 期 的 所 有 定时 器 。 


在 Linux 设 备 张 动 编程 中 ， 可 以 利用 Linux 内 核 中 提供 的 一 组 函数 和 数据 结构 来 完成 定时 触及 工作 或 者 
完成 未 周期 性 的 事务 。 这 组 函数 和 数据 结构 使 得 驱动 工程 师 在 多 数 情 况 下 不 用 关心 具体 的 软件 定时 硕 完 竟 
X DV. EE EN) A A EAE AT AY o 


Linux 内 核 所 提供 的 用 于 操作 定时 器 的 数据 结构 和 函数 如 下 。 

1.timer list 
fELinuxPjTZrH, timer _ list 结构 体 的 一 个 实例 对 应 一 个 定时 器 ， 如 代码 清单 10.9 所 示 。 
代码 清单 10.9 timer list 结 构 体 


lIStrucb timer liec 1 
2 "Bo 

5 * All fields that change during normal runtime grouped to the 
4 * same cacheline 

S s 

6 Struce Lint bead entry, 

7 unsigned long expires; 

8 SLLUCL tVec Dase. *base, 


10 void (*function) (unsigned long); 
ll unsigned long data; 

12 

13 int slack; 

14 

15#ifdef CONFIG TIMER STATS 

jus LIE Stare prd; 

17 VOTO Star Site; 

18 char start commo]; 

19#endif 

20#ifdef CONE LG LOCRDER 

2L struct lockdep map lockdep map; 
22#endif 

ea ae 


当 定 时 器 期 满 后 ， 其 中 第 10 行 的 function〈() 成 员 将 被 执行 ， 而 第 11 行 的 data 成 员 则 是 传 入 其 中 的 参 
数 ， 第 7 行 的 expires 则 是 定时 器 到 期 的 时 间 Giffies) 。 


如 下 代码 定义 一 个 名 为 my timer 的 定时 化 : 


SLruct timer List Ny tImer; 


2. 初 始 化 定时 器 


init_timer 古 一 个 宏 ， 它 的 原型 等 价 于 : 
VOLO gnat Timer(struct. timer list ~ tamer); 


上 述 init timer ©) 函数 初始 化 timer list 的 entry 的 next 为 NULL， 并 给 base 指 针 赋 值 。 


TIMER INITIALIZER ( function, expires, data) ZH] T WB EN arai WY function, expires. 
data 和 base 成 员 ， 这 个 宏 等 价 于 : 


#define TIMER INITIALIZER( function, expires, data) { 
.entry = { .prev = TIMER ENTRY STATIC hy 
pEUNCELOM = 4 Tunceeron.)., 
Erer = ( expires), 
"Coro = { Cava), 
„Dase = DOOL Tvec Dases, 


A ue GO GO Gg Lm 


DEFINE TIMER ( name, function, expires, data) 宏 是 定义 并 初始 化 定时 器 成 员 的 “快捷 方式 ”， 


这 个 宏 定 义 为 : 


#define DEFINE TIMER( name, function, expires, data) \ 
struct timer list name =\ 
TIMER INITIALIZER( function, expires, data) 


此 外 ，setup_timer © 也 可 用 于 初始 化 定时 器 并 赋值 其 成 员 ， 其 源 代码 为 ; 


#define setup timer( timer, fn, data, flags) N 
do { 3 
| init timer(( timer), ( flags)); N 
( timer)->function = ( fn); N 
( timer)->data = ( data); N 
} while (0) 


3 JEn xE BT as 
ee 
EX EL 23H] HEURE AN PA TERN i, ORE REIN ASLAN A BAS FE IN HEHE ZS HE o 
4. E xe AY as 
inb deb eames oes pines ee = pedis 
Ee E 2508] Pa Ba EFT is 


del timer sync () 是 del timer ©) WEFR, FERN BR P XE SE aR EN ga SSF AH Se, ALE PRAY 
i3 FA AN He ACE TE TRISTE P CHE 


5 AE OE IN #8 WJ expire 


IMG mod Tamer(Struce Camer. LS 


ERRA T I ee SE REI SAE TB], CERT Re A Hexpires # SK Ja A 2 3AVET XE EST su PRI BY o 


US is 810.1028 Hi Y, SCE AAS FEIN ae EP, FERS BU Ps WC ORT B RO AD 
FEAE H SE SE a o 


代码 清单 10.10 ”内 核定 时 器 使 用 模板 


1/* XXX 设备 结构 体 */ 

ZSCLUCt xxx dev 1 

3 Struct cdev cdey, 

D ds 

> Taner list x timer; /* 设备 要 使 用 的 定时 器 */ 
6}; 

7 

8/* XXX 驱动 中 的 某 函 数 */ 

es 


由 


13  /* 初始 化 定时 器 */ 
14 init timer (&dev->xxx timer); 


l5 deve xxx Cimersfuncrion = xxx do. timer; 
16. dev-»2xxx timer,.data = (unsigned long)dev; 
17 /* 设备 结构 体 指针 作为 定时 器 处 理 函 数 参数 */ 
l9. Gdév=>xxx timer.expires = jiffies + delay; 


19  /* 添加 (注册 ) 定时 器 */ 
2 


24/* XXX 驱动 中 的 某 函 数 大 / 
2 RK TNG 3) 


28  /* 删除 定时 器 */ 
29: del Cimer (&deve-oxxx Timer); 


33/* 定时 器 处 理 函数 * / 
S4stactic void Xxx do timer(unsigned long arg) 


391 

230 Struce XXX device "dev = (SLIPUOCC Xxx device ^) (arg); 
Od (we wd 

38 /* 调度 定时 器 再 执行 */ 

29 dev-oxxx tlmer.expilres = jilrfiess T delay; 

40 add timer(&dev-»xxx timer); 

41 

42} 


WANE B18. 3947 HJ DAA, REP SRI] BAIN Ta EE Ze TE H Bi jiffiesH] Amb ZH IRE. d 


为 Hz， 则 表示 延迟 1s。 


在 定时 硕 处 理 函 数 中 ， 在 完成 相应 的 工作 后 ， 往 往 会 延 后 expires 并 将 定时 套 再 次 添 加 到 内 核定 时 硕 链 
KP, EET AS Re HARI AEA o 


woah, LinuxA 4% x #¥ticklessfINO HZtisUa, WEES X hrtimer ASEEN Hy €H 
以 文 持 到 微 秒 级 别 的 精度 。 内 核 也 定义 了 hrtimer 结 构 体 ，hrtimer set expires () 、 
hrtimer start expires () 、hrtimer forward now () 、hrtimer restart O) 等 英 似 的 API 来 完成 hrtimer 的 设 


置 、 时 间 推 移 以 及 到 期 回调 。 我 们 可 以 从 sound/soc/fsWimx-pcm-fig.c 中 提取 出 一 个 使 用 范例 ， 如 代码 清单 


10.11 所 示 。 


代码 清单 10.11 内核 高 精度 定时 堪 Chrtimer) 使 用 模板 


SEE 


21 

3 

4 

5 Se 二 ie 
6 

7 return HRIIMER RESTART 

8 } 

9 

lOÜstatric rcnt Sud Ime pen trigger (struct snd pom -substream *subsStream; mL cme) 
134 

12 SUruct snd- pom runbime- *rumbime--— GSubsStream--rumtrime; 

iS SUPDUCL Hbc pem Suustame data. “srto = Eüuntrme-^private daca; 
14 

15 switch (cmd) 4 

1:0 case SNDRV PCM. TRIGGER: STAET: 

17 case SNDRV PCM TRIGGER RESUME: 

18 case SNDRV PCM TRIGGER PAUSE RELEASE: 

1,9 € 
2 上 
Zl HRTIMER MODE REL); 
22 
20 
24 
Z29sUcdLEO XC Send mx opem(struct sud pon eubstream *supstream) 
26 { 
21 n 
28 hrtimer xnit(&iprtd--hrt, CLOCK MONOTONIC, ARTIMER MODE REL); 
29 工作 
30 

24 E 

32 return 0; 

oo 

S4stalire: INE Send imx-ochose(sUuruct snd pom substreem- *substream) 

o 

36 Eid 

Sal Drtcrmer CA (Ce Lr t= Se 

38 

o 


第 28~29 行 在 声卡 打开 的 时 候 通 过 hrtimer init © 初始 化 了 hrtimer， 并 指定 回调 函数 为 
snd hrtimer callback © ; 在 启动 播放 (第 15~21 行 SNDRV PCM TRIGGER START) 等 时 刻 通 过 
hrtimer start ) 局 动 了 hrtimer; iprtd->poll time_ns 纳 秒 后 ， 时 间 人 到 snd_hrtimer callback ©) PA ZÆ P Wr E 
下 文 被 执行 ， 它 紧 接着 又 通过 hrtimer forward now () 把 hrtimer 的 时 间 前 移 了 iprtd->poll time ns 纳 秒 ， 这 
样 周而复始 ; 直到 声卡 被 关闭 ， 第 37 行 义 调用 了 hrtimer cancel O 取消 在 open 时 初始 化 的 hrtimer。 


10.5.2 ”内 核 中 延迟 的 工作 delayed_work 


对 于 周期 性 的 任务 ， 除 了 定时 可 以 外 ， 在 Linux 内 核 中 还 可 以 利用 一 僚 封 泽 得 很 好 的 快捷 机 制 ， 其 本 
质 是 利用 工作 队列 和 定时 夫 实 现 ， 这 笃 快捷 机 制 融 定 delayed_work，delayed_work 结 构 体 的 定义 如 代码 清单 


10.12 上 所 示 。 


代码 清单 10.12 delayed work 结构 体 


lstruct delayed work i 
SLruct work STFUCE WOEZK; 
StLUGCE LiMer Liot Tamer; 


/* target workqueue and CPU ->timer uses to queue -»work */ 
Struct workqueue Struct wa, 
int cpu; 


COND OB CO P2 


Ye 
“Ne 


我 们 可 以 通过 如 下 函数 调度 一 个 delayed_work 在 指定 的 延 时 后 执行 : 


int schedule delayed work(struct delayed work *work, unsigned long delay); 


当 指 定 的 delay 到 来 时 ，delayed_ work 结构 体 中 的 work 成 员 work func t 类 型 成 员 func〈() 会 被 执行 。 


work func t 类 型 定义 为 : 
typedef void (*work func t) (struct work struct *work); 
其 中 ，delay 参 数 的 单位 是 ji 全 es， 因 此 一 种 常见 的 用 法 如 下 : 
schedule delayed work(&work, msecs to jiffies(poll interval)); 
msecs to jiffies OO H Tee Mb FE 7 jjiffies. 


ur AR A] HAE HST TES. X8 zfEdelayed _ work 的 工作 函数 中 再 次 调用 schedule delayed work ©) , 
周而复始 。 


"ll F RAH HEYA delayed work: 


int Cancel delayed work(Struct: delayed work "work; 
int cancel delayed work. sync(struct delayed work *“work); 


10.5.3 SLU: 秒 字 符 设 备 


下 和 面 我 们 编写 一 个 字符 设备 “second”( 即 “ 秒 ”) 的 驱动 ， 它 在 被 打开 的 时 低 初 始 化 一 个 定时 问 并 将 其 
深 加 到 内 核定 时 占 链 表 中 ， 每 秒 输出 一 次 当前 的 ji 从 es (为 些 ， 定 时 问 处 理 冰 数 中 每 次 都 要 修改 新 的 
expires) ， 整 个 程序 如 代码 清单 10.13 所 示 。 


代码 清单 10.13 ”使 用 内 核定 时 亏 的 second 字 人 符 设 备 豫 动 


1£include <linux/module.h> 

2#include <linux/fs.h> 

3#include <linux/mm.h> 

A#include «linux/init.h» 

5#include <linux/cdev.h> 

6#include <linux/slab.h> 

7#include <linux/uaccess.h> 

8 

9#define SECOND MAJOR 248 
10 
listatic int second major = SECOND MAJOR; 
12module param(second major, int, S IRUGO); 


13 

I4S5Strügt second dev 4 

Lo struct xcdev dev} 

16 atomic t counter; 

17 Struct. timer List 3 timer; 

18}; 

19 

ZUÜSUCHLIOC Struct second. dev “second devni 

21 

22static void second timer handler(unsigned long arg) 

234 

24 mod timer(&second devp->s timer, jiffies + HZ); /* 触发 下 一 次 定时 */ 
25 atomic inc(&second devp->counter) ; /* 增加 秒 计数 * / 
26 

27 printk(KERN INFO "current jiffies is tld\n", jiffies); 

20 

29 

US Int. second open(istruct 1ncde “rode, SCtEUOL tite. *T1i1D) 
gl 

22 Anil timer (ssecond devp->s Timer); 

39 Segond devp--s Lime function = ¢second.timer handler; 

24 Second devpecs trimer.expilres = Jirrlies + HA; 

35 

26 add ctumeri(esecond devpes CLIMEI)? 

J] 

39. atomic set (second devyp=->counter, 0); /* 初始 化 秒 计数 为 0 大/ 
39 

40 return 0; 

41] 

42 

doo raLIo ane Second release(strucc anode “inode, Sueruct Tile *rLr1lp) 
44 { 

45 del timer(&second devp-»s timer); 

46 

47 return 0; 

48} 

49 

JUStalic Ssize t Second read(Strüct file *filp, char user * bur, size t count; 
IL LOIL E * DDOBR) 

52 { 

03 10L gounter? 

54 

ga counter = atomic Tread (ssecond devp-»counter); 

56 if (put user (counter, (int *)buf))/* 复制 Counter 到 userspace */ 
Su frerurm. -EFAULT} 

58 else 

59 return sizeof (unsigned int); 

60] 

61 

62Scalic CONSE. Struct file Operations second Tops Ss | 

0o JOwner = THiS MODULE, 

04. .Open = second open, 

GS. release = Second: release, 

00 «(Gad = Second read; 

67); 


68 


O9Starrlo vod Second Setup cdev(struct second dev “dev, umi. Index) 
TOA 

Tl EOE err, deuno = MKDEV (second mayor, Dde)? 

GZ 

To Cder ANTE (edev->cdev, «second TOps); 

TA ddevescgev.owner = THIS MODULE; 


Xo Grr —goev.addiedev-^cdev, -devnuo,. 1); 

76 if (err) 

T3 printk(KERN ERR "Failed to add second device Wn"); 
78] 

79 

SUSTALLC INE: Inre Second IBIbE(vord) 

Ou 


Do ITE, REUS 
oS. dev "D deuno = MKDEV(Second mayor, OO) > 


84 

o9. Xf (Second: mayor) 

86 ret > egrster chrdev regronidevho, Ly “second')7 
87 else { 

88 ret - alloc chvdey. teg1onicdevnG;, Ur ll "Seocond"5- 
89 second major = MAJOR (devno) ; 

90 } 

91 if (ret < O0) 

92 人 

93 


94. Second devp = .kzalloc(sizeor(*second devp), ‘GFP KERNEL); 
99 uf «Second devp).u 


96 ret. = cENOMEM; 
91 FOLO “Paw. Mal Loe; 
98 
29 
LOU: second: setup cdev(second devp; Ury 
1:03 
LOZ) return. OQ 
103 


LO4rarl malloc: 
10> unreglister chrdev regrontdevno, 3 
POG: SLU: ety 


107 } 

l0Smogdule anit (second INEL)? 

109 

LEUG CAT TO WO: . Gxt Second exubCVOrXd) 
111{ 


Ila ‘dev del(ssecond devpsescoev)s 

LLS "Se (Second devp); 

114 unregister chrdev regron(MKDEYV (second major; 0); LX? 
aS 

Liemodüule cxl (second. ex ru); 

FEJ 

IISMODULE AUTHOR ("Barry Song «21cnbaoGgmarl.com»'); 
119MODUBE. LICENSE ("GPL v2"); 


在 Second 的 open《〈) Pa, Khas aS, US REIS ie fT FEI ak MSH eK AY, fEsecondil] 
release O PRAM, FEM ae SOM ER e 


second dev£iT4 AF HY RFA E counterH] T PtP, EVR TE TE IY d ATH p Be a] FA atomic inc O 会 
令 其 原子 性 地 增 1，second 的 read ©) 函数 会 将 这 个 值 返 回 给 用 户 空 间 。 


本 书 配 登 的 Ubuntu 中 /home/baohua/develop/training/kernel/drivers/second/ 包 含 了 second 设 备 驱 动 以 及 
second test.c 用 尸 空间 测试 程序 ， 运 行 make 命 令 编 译 得 到 second.ko 和 和 second_test， 加 载 second.ko 内 核 模块 并 
创建 /dewsecond 设 备 文件 节点 : 


41 mknod /dev/second c 248. 0 


Ar 810.1425 h f second test. xA MHIE, "E $T2T/dev/second, H) A Br i X BL /dev/second ig 
备 文 件 打开 以 后 经 历 的 秒 数 。 


代码 清单 10.14 secondi H A E [RJ IU EE AP 


1#include 

2 

3main() 

4{ 

o ant dg; 

6 ant counter = 0; 

f ane old counter = 0; 
8 


9 /* 打开 /dev/second 设 备 文件 */ 
10 fd = open("/dev/second", O RDONLY); 


11 if (fd = ~ 1) { 

13 while (1) { 

19 read(fd, &counter, sizeof (unsigned int));/* MAMAnAKhe */ 
16 ii (Counter DO -counver) 1 

18 printf ("seconds after open /dev/second :%d\n",counter) ; 
19 old Counter = counter, 

20 } 

21 } 

A, } else | 

z printi ("Device open failure\n"); 

26 } 

27] 


内 核 将 不 断 地 输出 目前 的 ji 从 es 值 : 


运行 Second test 后 ， 


13935.122095] current jJiffies is 13655122 


[ ] 

[13936.124441] current jiffies is 13636124 
[13937.126078] current jifries i8 13637126 
[13952.9320498] current jifries ris 1306529032 
[13953.834078] current jiffies is 13653834 
[13954.836090] current jiffies is 13654836 
]11.3955,98235309] current jiirire6s zs 156059959 
[13956.840453] current jiffies is 13656840 


从 上 述 内 核 的 打印 消息 也 可 以 看 出 ， 本 书 配套 Ubuntu 上 的 每 秒 jifies 大 概 走 1000 次 。 而 应 用 程序 将 不 


Ir HL H /dec/second17 JT A JE £$ p3 PEHRP ZR : 


# ./second test 


seconds after open /dev/second : 


seconds after open /dev/second 


seconds after open /dev/second : 
seconds after open /dev/second : 


seconds after open /dev/second 


CH A Go BO I 


10.6 内核 延 时 
10.6.1 £d uER 


Linux Peete S PIARA ADETA TAURI SUP ER : 


void ndelay(unsigned long nsecs); 
void udelay(unsigned long usecs); 
void mdelay(unsigned long msecs); 


上 述 延 人 运 的 实现 原理 本 质 上 是 忙 等 待 ， 它 根据 CPU 频 率 进 行 一 定 次 数 的 循环 。 有 时候 ， 人 们 在 软件 中 
BET PAY WEIR 
void delay(unsigned int time) 
{ 


while (time--); 


} 


ndelay () . udelay Ò 和 mdelay〈) 函数 的 实现 方式 原理 与 此 类 似 。 内 核 在 局 动 时 ， 会 运行 一 个 延 信 
循环 校准 (Delay Loop Calibration) ， 计 算出 lpj (Loops Per Jiffy) ， 内 核 局 动 时 会 打印 如 下 类 似 信 息 : 


Calibrating delay loop... 530.84 BogoMIPS (1pj=1327104) 


如 朱 我 们 直接 在 bootloader 传 递 给 内 核 的 bootargs 中 设置 lpj=1327104， 则 可 以 省 挥 这 个 校准 的 过 程 ， 贡 
BA EPA PALIN T8] « 


坚 秒 时 延 〈 以 及 更 大 的 秒 时 延 ) 己 经 比较 大 了 ， 在 内 核 中 ， 最 好 个 要 和 耳 接 使 用 mdelay() eB, ROK 
耗费 CPU 资源 ， 对 于 坚 秒 级 以 上 的 时 延 ， 内 核 提 供 了 下 述 函 数 : 


void msleep(unsigned int millisecs); 
unsigned long msleep interruptible(unsigned int millisecs); 
void ssleep(unsigned int seconds); 


EIR ROKET HJ €: ANTE He BER ZA ZA 38 «E HIIS] IH] Aymillisecs, msleep © ~ ssleep ©) /BESETT T, 
而 msleep_interruptible €) MI) nf LA@EFT Wr. 


RA msleep ©) 关 似 函数 的 精度 是 有 限 的 。 


10.6.2 ”长 延迟 


在 内 核 中 进行 延迟 的 一 个 很 直观 的 方法 是 比较 当前 的 jites 和 目标 ji 锚 es《〈 设 置 为 当前 jifes 加 上 时 间 间 
隔 的 jifies) ， 直 到 未 来 的 jifes 达 到 目标 jifies。 人 代码 清单 10.15 给 出 了 使 用 忙 等 竺 先 延 民 100 个 jites 再 延迟 
2s 的 实例 。 


代码 清单 10.15 ”人 忙 等 待 时 延 实例 


1/* #78100* 31ffies */ 

2unsigned long delay = jiffies + 100; 
Sswhile (tame before(jiffies, delay) ); 

4 

5/* Waps2s */ 

ounsigned long delay = jiffies + 2*Hz; 
7while(time before(jiffies, delay)); 


与 time before ©) 对 应 的 还 有 一 个 time after O ， 它 们 在 内 核 中 定义 为 (实际 上 只 是 将 传 入 的 未 来 时 
间 jifies 和 被 调用 时 的 jifies 进 行 一 个 简单 的 比较 ) : 


(typecheck (unsigned long, 
typecheck (unsigned long, b 
( (long) (b) - (long) (a) < 0)) 
#define time before(a,b) time &arter(b;a) 


#define time after (a,b) N 
a) 
) 


&& AN 
&& \ 


为 了 防止 在 time before ©) 和 time after OO BS ELTOSUEE HP nikariek, A ROR E CA 
volatile Ek, ROR TRUER ABS HEU AERE. Btvolatilet € PEH ce hE fioi GFF 


10.6.3 ”有 睡 着 延迟 


睡 着 延迟 无 疑 是 比 忙 等 待 更 好 的 方式 ， 睡 着 延迟 是 在 等 待 的 时 间 到 来 之 前 进程 处 于 睡眠 状态 ，CPU 资 
源 被 其 他 进程 使 用 。schedule_ timeout ©) 可 以 使 当前 任务 休眠 至 指定 的 jifies 之 后 再 重新 被 调度 执行 ， 
msleep (Ò #llmsleep_interruptible O EAH Es ze KSEE f schedule timeout €) 的 
schedule timeout uninterruptible () 和 schedule timeout interruptible © 来 实现 的 ， 如 代码 清单 10.16 所 示 。 


代码 清单 10.16 schedule timeout ©) 的 使 用 


lvoid msleep (unsigned int msecs) 


21 

3 unsigned long Timecuc = msecs tO J]irrriesimsecs) + 17 

4 

5 while (timeout) 

6 timeout = schedule timeout uninterruptible (timeout); 
1] 


8 
?unsligned Long msleep 1nterrupliable (unsigned Int msecs) 


1:04 

UB unsigned long Timeout = msecs. to jrrries(Qmseos) s. 
12 

13 while (timeout && !signal pending(current) ) 

14 tiImeoun = schedule timeout. snrterruptuble(Limecur), 
lo. LSCULH JLLLres to moen (Cimeouc) > 

16} 


SKØRE, schedule timeout ©) MEMEH ERARI EIN 38. FE RE EN aS BH py ACH] E E; Zs By 
对 应 的 进程 。 


代码 清单 10.16 中 第 6 行 和 第 14 行 分 别 调用 Schedule timeout uninterruptible () 和 
schedule timeout interruptible C) ， 这 两 个 函数 的 区 别 在 于 前 者 在 调用 schedule timeout O 之 前 置 进程 状 
态 为 TASK INTERRUPTIBLE， 后 者 置 进程 状态 为 TASK UNINTERRUPTIBLE， 如 代码 清单 10.17 所 示 。 


代码 清单 10.17 schedule timeout interruptible (Ò 和 schedule timeout interruptible ©) 


lsigned long sched schedule timeout interruptible(signed long timeout) 
241 
3. | met Current. StatetLASK INTERRUPTIBLDEJ; 
4 return schedule timeout (timeout); 
23 
6 
7eugned Long .. sched schedule timeout uninterruüptible(signed long oimeouL) 
8 { 
ascii 
10 return schedule timeout (timeout); 
113} 


Fgh, FP PAS eR A SE EE as BS te BA, MAESA ERER. SENTRE, 3E 
Fete ORME Cae n] AE BU LTT IST) : 


sleep on timeout(wait queue head t *q, unsigned long timeout); 
interruptible sleep on timeout(wait queue head t*q, unsigned long timeout); 


10.7 J£ 


Linux 的 中 断 处 理 分 为 两 个 半 部 ， 顶 半 部 处 理 紧 急 的 人 硬件 操作 ， 捕 半 部 处 理 不 案 忽 的 耗 时 操作 。tasklet 
和 工作 队列 都 是 调度 中 断 底 半 部 的 良好 机 制 ，tasklet 基 于 软 中 断 实 现 。 内 核定 时 器 也 依靠 软 中 断 实现 。 


内 核 中 的 延 时 可 以 采用 忙 等 待 或 睡眠 等 待 ， 为 了 充分 利用 CPU 资源 ， 使 系统 有 更 好 的 吞吐 性 能 ， 在 对 
延迟 时 间 的 要 求 并 不 是 很 精确 的 情况 下 ， 睡 眠 等 待 通常 是 值得 推荐 的 ， 而 adelay © 、udelay O 忙 等 竺 
机 制 在 驱动 中 通常 是 为 了 配合 硬件 上 的 短 时 延迟 要 求 。 


elle ”内存 与 VO 访问 
本 章 导读 


由 于 Linux 系 统 提 供 了 复杂 的 内 存 管理 功能 ， 所 以 内 存 的 概念 在 Linux 系 统 中 相对 复杂 ， 有 和 钊 规 内 存 、 
高 端 内 存 、 虚 拟 地 址 、 逻 辑 地 址 、 总 线 地 址 、 物 理 地 址 、L/O 内 存 、 设 备 内 存 、 预 留 内 存 等 概念 。 本 章 将 
系统 地 讲解 内 存 和 LO 的 访问 编程 ， 斋 读者 走出 内 存 和 LO 的 概念 迷宫 。 


11.1 攻 讲解 内 存 和 IO 的 使 件 机 制 ， 主 要 涉及 内 存 空间 、LIO 空 间 和 MMU。 
11.2 廊 讲解 Linux 的 内 存 官 理 、 内 存 区 域 的 分 布 、 和 剃 规 内 存 与 局 病 内 存 的 区 列 。 
11.3 廊 讲解 Linux 内 和 存 存 取 的 方法 ， 主 要 涉及 内 存 动态 申请 以 及 通过 虚拟 地 址 和 存 取 物理 地 址 的 方法 。 


11.4 市 讲解 设备 VO 病 口 和 LO 内 存 有 的 访问 流程 ， 这 一 市 对 于 编写 设备 驱动 的 音义 非 单 睾 大 ， 设 备 驱动 
使 用 此 市 的 方法 访问 物理 设备 。 


11.$ 节 讲解 IJO 内 存 静 态 映 射 。 


11.6 节 讲解 设备 驱动 中 的 DMA 与 Cache 一 致 性 问题 以 及 DMA 的 编程 方法 。 


11.1 CPU 与 内 存 、LIO 
11.1.1 A fée IR] ESTO IR] 

在 X86 处 理 器 中 存在 着 1/O 空 间 的 概念 ，L/O 空 间 是 相对 于 内 存 空间 而 言 的 ， 它 通过 特定 的 指令 in、out 
来 访问 。 端 口号 标识 了 外 设 的 寄存 器 地 址 。Intel 语 法 中 的 in、out 指 令 格 式 如 下 : 


IN 累加 器 ， {端口 号 | DX} 
OUT {端口 号 | DX}， 累加 器 


目前 ， 大 多 数据 入 式微 控制 器 (如 ARM、PowerPC 等 ) 中 并 不 提供 VO 空间 ， 而 仅 存 在 内 存 空间 。 内 
存 空间 可 以 了 古 接 通过 地 址 、 指 针 来 访问 ， 程 序 及 在 程序 运行 中 使 用 的 变量 和 其 他 数据 都 存在 于 内 存 空 间 
中 。 


内 存 地 址 可 以 直接 由 C 语 言 指针 操作 ， 例 如 在 186 处 理 老 中 执行 如 下 代 伍 : 


unsigned char *p = (unsigned char *)OxFOO0FF00; 
Kn— e 
p=11; 


以 上 程序 的 意义 是 在 绝对 地 址 9xF0000+0xFF00 (186 处 理 器 使 用 16 位 段 地 址 和 16 位 偏 移 地 址 〉 中 写 入 
11. 


而 在 ARM、 了 PowerPC 等 未 采用 段 地 址 的 处 理 器 中 ，p 指 向 的 内 存 空间 就 是 0xF000FF00， 而 *sp=11 就 是 
在 该 地 址 写 入 11。 


再 如 ，186 处 理 器 启动 后 会 在 绝对 地 址 0xFFFF0 (对 应 的 C 语 言 指 针 是 0xF000FFF0，0xF000 为 段 地 
址 ，0xFFF0 为 段 内 偏 移 〉 中 执行 ， 请 看 下 面 的 代码 : 








typeder void t(*bprunction) 1 97 /* 定义 一 个 无 参数 、 无 返回 类 型 的 函数 指针 类 型 / 
lpFunction lpReset = (lpFunction) OxFOOOFFFO; /* 定义 一 个 函数 指针 ， 指 向 */ 
/* CPU 启动 后 所 执行 的 第 一 条 指令 的 位 置 */ 

lpReset (); /* 调用 函数 */ 


在 以 上 程序 中 ， 没 有 定义 任何 一 个 函数 实体 ， 但 是 程序 却 执行 了 这 样 的 函数 调用 : IpReset O , “ESE 
际 上 起 到 了 “ 软 章 局 ”的 作用 ， 跳 转 到 CPU 局 动 后 第 一 条 要 执行 的 指令 的 位 置 。 因 此 ， 可 以 通过 函数 指针 调 
用 一 个 疫 有 函数 体 的 “ 梢 数 ”， 这 本 质 上 只 是 换 一 个 地 址 开始 执行 。 


即便 是 在 X86 处 理 嚣 中， 虽然 提供 了 IO 空间 ， 如 果 由 我 们 目 己 设计 电路 板 ， 外 设 仍然 可 以 只 挂 接 在 
内 存 衬 间 中 。 此 时 ，CPU 可 以 像 访 问 一 个 内 存单 元 那样 访问 外 设 IO 疹 口 ， 而 不 需要 设立 专门 的 IO 指令 。 
因此 ， 内 存 空间 是 必需 的 ， 而 WO 空间 是 可 选 的 。 图 11.1 给 出 了 内 存 空 间 和 LO 空间 的 对 比 。 





图 11.1 ”内存 空间 和 LO 空间 


11.1.2 Wye Hoc 


高 性 能 处 理 器 一 般 会 提供 一 个 内 存 管理 单元 (MMU) ， 该 单元 辅助 操作 系统 进行 内 存 管 理 ， 提 供 虚 
拟 地 址 和 物理 地 址 的 映射 、 凡 存 访问 权限 你 护 和 Cache 缓 仓 控制 等 便 件 文 持 。 拘 作 系 统 内 核 信 助 MMU 可 以 
让 用 户 感 沉 到 程序 好 像 可 以 使 用 非 第 大 的 内 存 空 间 ， 从 而 使 得 编程 人 员 在 号 程序 时 个 用 考虑 计算 机 中 物理 


内 存 的 实际 容量 。 
为 了 理解 基本 的 MMU 操 作 原 理 ， 需 先 明 晰 几 个 概念 。 


1) TLB (Translation Lookaside Buffer) : 即 转换 劳 路 缓存 ，TLB 是 MMU 的 核心 部 件 ， 它 绥 存 少量 的 
庶 拟 地 址 与 物理 地 址 的 转换 关系 ， 是 转换 表 的 Cache， 因 此 也 经 间 被 称 为 “ 快 表 ?”。 


2) TTW (Translation Table walk) : 即 转换 表 漫 游 ， 当 TLB 中 没有 绥 冲 对 应 的 地 址 转换 关系 时 ， 需 要 
通过 对 内 存 中 转换 表 〈( 大 多 数 处 理 右 的 转换 表 为 多 级 页 表 ， 如 图 11.2 所 示 〉 的 访问 来 获得 虚拟 地 址 和 物理 
地 址 的 对 应 关系 。TTW 成 功 后 ， 结 果 应 与 入 TLB 中 。 


页 表 基 址 寄存 器 


一 级 页 表 -级 页 表 


图 11.2 ”内 存 中 的 转换 表 


图 11.3 给 出 了 一 个 典型 的 ARM 处 理 器 访问 内 存 的 过 程 ， 其 他 处 理 器 也 执行 类 似 过 程 。 当 ARM 要 访问 
存储 右 时 ，MMU 先 但 找 TLB 中 的 虚拟 地 址 表 。 如 果 ARM 的 结构 文 持 分 开 的 数据 TLB CDTLBO 和 指令 
TLB (ITLB〉， 则 除了 取 指 令 使 用 ITLB 外 ， 其 他 的 都 使 用 DTLB。ARM 人 处 理 器 的 MMU 如 图 11.3 所 示 。 





图 11.3 ”ARM 人 处理 器 的 MMU 


大 TLB 中 没有 虚拟 地 址 的 入 口 ， 则 转换 表 衣 历 便 件 并 从 存放 于 主 存储 右 内 的 转换 表 中 获取 地 址 转换 信 
息 和 访问 权限 〈( 即 执行 TW)〉， 同 时 将 这 些 信息 放 入 TLB， 它 或 者 被 放 在 一 个 没有 使 用 的 入 口 或 者 蔡 换 
一 个 已 经 存在 的 入 口 。 之 后 ， 在 TLB 条 目 中 控制 信息 的 控制 下 ， 当 访问 权限 允许 时 ， 对 真实 物理 地 址 的 访 
问 将 在 Cache 或 者 在 内 存 中 友 生 ， 如 图 11.4 所 示 。 










Ge E 


访问 内 存 


访问 内 存 
访问 Cache 更 新 Cache 


图 11.4 ARM CPU 进行 数据 访问 的 流程 





ARM 内 TLB 和 条目 中 的 控制 信息 用 于 控制 对 对 应 地 址 的 访问 权限 以 及 Cache 的 操作 。 


C (高 速 缓存 ) 和 B (缓冲 ) 位 被 用 来 控制 对 应 地 址 的 高 速 缓存 和 写 缓冲 ， 并 决定 是 否 进行 高 速 组 
存 。 


访问 权限 和 域 位 用 来 控制 读 写 访问 是 否 被 允许 。 如 果 不 多 许 ，MMU 则 向 ARM 处 理 器 发 送 一 个 存储 


器 异常 ， 否 则 访问 将 被 允许 进行 。 


上 述 描 述 的 MMU 机 制 针对 的 虽然 是 ARM 处 理 器 ， 但 PowerPC、MIPS 等 其 他 处 理 器 也 均 有 类 似 的 操 
作 。 


MMU 具 有 虚拟 地 址 和 物理 地 址 转换 、 内 存 访 问 权 限 你 护 等 功能 ， 这 将 使 得 Linux 操 作 系 统 能 早 独 为 系 
统 的 每 个 用 户 进程 分 配 独立 的 内 存 空间 并 你 证 用 户 空 间 不 能 访问 内 核 衬 间 的 地 址 ， 为 操作 系统 的 虚拟 内 存 
E EER he p PE JE ile 


在 Linux 2.6.11 之 前 ，Linux 内 核 价 件 无 天 层 使 用 了 三 级 忠 表 PGD、PMD 和 PTE; 从 Linux 2.6.11 开 始 ， 
为 了 配合 64 位 CPU 的 体系 结构 ， 硬 件 无 关 层 则 使 用 了 4 级 页 表 目 录 管 理 的 方式 ， 即 PGD、PUD、PMD 和 
PTE。 注 意 这 仅仅 是 一 种 软件 意义 上 的 抽象 ， 实 际 便 件 的 页 表 级 数 可 能 少 于 4。 代 码 清单 11.1 给 出 了 一 个 
典型 的 从 虚拟 地 址 得 到 PTE 的 页 表 查 询 (Page Table Walk) 过 程 ， 它 取 自 


arch/arm/lib/uaccess with memcpy.c. 
代码 清单 11.1 Linux 的 四 级 页 表 与 页 表 查 询 


ilsratic THE 


2prn page LOr write (CONST vord deser T addr, pte b **DESD, spun lock b ADELE) 


4 unsigned long addr = (unsigned long) addr; 
> pgd t *pgd; 

0 pmd t *pmo 

4; DES. E. “pte; 

D puc t ^p 

DamnlLook. uw pul 


10 

li. -pgd = pgoa- otftfseticurrent-»mm, ddr); 

12 if (unlikely (pgd none(*pgd) || pgd bad(*pgd) )) 
no return 0; 

14 

l5 pud puc oOLISeUtipgd; addr); 

iG. at (unlikely (pud- none (*pud). Ik pud -Dad pudy 
17 return 0; 

18 


L19 pmd = pmd-ofisetpüd; addr); 
20 if (unlikely (pmd_none(*pmd) ) ) 


2l return 0; 

2 

2S: ee 

24 * A pmd can be bad if it refers to a HugeTLB or THP page. 
Zo F 

26 * Both THP and HugeTLB pages have the same pmd layout 
21] * and should not be manipulated by the pte functions. 
Zr 9 

29 * Lock the page table for the destination and check 

30 * to see that it's still huge and whether or not we will 
31 * need to fault on write, or if we have a splitting THP. 
32. EJ 

39 HL (unlrkelyi(pmae thp~or nuget^pmd))3. 

34 pul = $current-^mm--page table Tock; 

33 Spin lock (pel) 7 

36 Lr. (unlikely (pmd thp Or hugel pmd) 

37 || pmd hugewillfault (*pmd) 

38 | p:pmd Lranse-splrubssegt*5pmd)a3 4 

39 Spin unboock0pUtL). 

40 return: 03; 

41 } 

42 

43 *ptep = NULL; 

44 Too e Dui 

45 return 1; 

46 } 

47 

48 if (unlikely(pmd bad(*pmd))) 

49 return 0; 

o0 

o1 pte = pte Offset. map.dock(curregnt- omm, pmd Addr; ptl)s 
92 aq (Untikely( pre. presenut* pce) | Spe voungt*pteJ's 
T Ere WeLLe(* pre) ‘|i. APTE CLE Ge A 

54 pte unmap unlock(pte, ptl); 

3 return 0; 

90 J 

oy 


58 *ptep = pte; 
Oe SOtL es DEI 


61 return 1; 
62] 


第 1 行 的 类 型 为 struct， pn # 程 所 占有 的 内 存 资 源 。 上 述 代码 中 的 
pgd_offset、pud_offset、pmd_offset 分 列 用 于 得 到 一 级 页 表 、 二 级 由 表 和 三 级 由 表 的 入 口 ， 最 后 通过 
pte offset map lock 得 到 目标 页 表 项 pte。 而 且 第 33 行 还 通过 pmd thp or huge O 判断 是 否 有 巨 页 的 情况 ， 
WREEK, WEA Epmd. 


(Axe, MMUŽ DERA AERE mH), Bas H SAMSUNG T ARM7TDMUR JE] 
S3C44BOX 不 附带 MMU， 新 版 的 Linux 2.6 支 持 不 带 MMU 的 处 理 器 。 在 先入 式 系 统 中 ， 仍 存在 大 量 无 MMU 
的 处 理 器 ，Linux 2.6 为 了 更 广泛 地 应 用 于 磐 入 式 系统 ， 融 合 了 mcClinux， 以 文 持 这 些 无 MMU 系 统 ， 如 
Dragonball. ColdFire. Hitachi H8/300、Blackfin 等 。 


11.2 Linux 内 存 管理 


对 于 包 人 台 MMU 的 处 理 融 而 言 ，Linux 系 统 所 做 了 复杂 的 存储 官 理 系统 ， 使 得 进程 所 能 访问 的 内 存 达 到 
4GB. 


在 Linux 系 统 中 ， 进 程 的 4GB 内 存 空间 被 分 为 两 个 部 分 一 一 用 户 空间 与 内 核 空间 。 用 户 空间 的 地 址 一 
般 分 布 为 0~3GB〈 即 PAGE_OFFSET， 在 0x86 中 它 等 于 0xC0000000〉 ， 这 样 ， 剩 下 的 3~4GB 为 内 核 空间 ， 
如 图 11.5 所 示 。 用 户 进 程 通常 只 能 访问 用 户 空间 的 虚拟 地 址 ， 不 能 访问 内 核 空间 的 虚拟 地 址 。 用 户 进程 只 
有 通过 系统 调用 《代表 用 户 进 程 在 内 核 态 执行 ) 等 方式 才 可 以 访问 到 内 核 空 间 。 


内 核 空 间 
M 4% IH 
—PAGE_OFFSET— 3GB o 
2GB 
^r | 
IGB n ELO 
0 


A115 用 户 空 间 与 内 核 空 间 


每 个 进程 的 用 户 衬 间 都 是 完全 独立 、 互 不 相干 的 ， 用 户 进程 各 目 有 不 同 的 页 硼 。 而 丹 核 空间 征 由 内 核 
人 负 贡 映 冉 ， 它 并 不 会 跟 看 进程 改变 ， 十 固定 的 。 内 核 空 间 的 虚拟 地 址 到 物理 地 址 映 册 是 被 所 有 进程 共 圣 
的 ， 内 核 的 虚拟 空间 独立 于 其 他 程序 。 


Linux 中 1GB 的 内 核 地 址 空间 义 补 划分 为 物理 内 存 映 冉 区 、 虚 拟 内 存 分 配 区 、 局 闹 页 面 映 册 区 、 专 用 
页 面 映 射 区 和 系统 你 留 映 射 区 这 几 个 区 域 ， 如 图 11.6 所 示 。 










保留 区 
专用 页 面 映射 区 


* oc 虚拟 内 存 分 配 X 
物理 内 存 Linux 内 核 空间 
311.6 ”32 位 x86 系 统 Linux 内 核 的 地 址 空间 


对 于 x86 系 统 而 言 ， 一 般 情况 下 ， 物 理 内 存 了 映射 区 最 大 长 度 为 896MB， 系 统 的 物理 内 存 极 顺序 映射 在 
内 核 空 间 的 这 个 区 域 中 。 当 系统 物理 内 存 大 于 896MB 时 ， 超 过 物理 内 存 映射 区 的 那 部 分 内 存 称 为 高 端 内 
和 存 《 而 未 超过 物理 内 存 映 冉 区 的 内 和 存 退 闸 被 称 为 第 规 内 和 存 )， 内 核 在 存 取 噩 师 内 存 时 必须 将 它们 映射 到 融 
i W E RT X. o 


Linux 保 留 内 核 空间 最 顶部 FIXADDR TOP~4GB 的 区 域 作为 保留 区 。 


么 接着 最 顶端 的 保留 区 以 下 的 一 段 区 域 为 专用 页 面 映 射 区 CFIXADDR_START~FIXADDR_ TOP) , 


它 的 总 尺寸 和 每 一 页 的 用 途 由 fixed_address 枚 举 结构 在 编 详 时 预定 义 ， 用 _fix to virt Cindex) 可 获取 专用 
区 内 预定 义 页 面 的 逻辑 地 址 。 其 开始 地 址 和 结束 地 址 宏 定 义 如 下 : 


efine FIXADDR START (FIXADDR TOP - FIXADDR SIZE) 
#define FIXADDR TOP ((unsigned long) | FIXADDR TOP) 
#define |  FIXADDR TOP Oxfffff000 


Be ROR, WRASACE SMA. MMF EHR mI PB E E in A RE, EE 
地 址 为 PKMAP BASE， 定 义 如 下 : 


efine PKMAP BASE ( (FIXADDR BOOT START = PAGE SIZE* (LAST PKMAP + 1)) & PMD MASK ) 


其 中 所 涉及 的 安定 义 如 下 : 


#define FIXADDR BOOT START (FIXADDR TOP - | FIXADDR BOOT SIZE) 
#define LAST PKMAP PTRS PER PTE 

#define PTRS PER PTE 512 

#define PMD MASK (~ (PMD SIZE-1)) 

# define PMD SIZE (1UL << PMD SHIFT) 

#define PMD SHIFT 21 


在 物理 区 和 高 端 映射 区 之 间 为 虚拟 内 存 分 配器 区 (VMALLOC START-VMALLOC END) ， 用 于 
vmalloc €) 函数 ， 它 的 前 部 与 物理 内 存 映 射 区 有 一 个 隔离 市 ， 后 部 与 高 病 映 射 区 也 有 一 个 隔离 市 ， 
vmalloc 区 域 定 义 如 下 : 


i#define VMALLOC OFFSET (8*1024*1024) 


#define VMALLOC START (((unsigned long) high memory + 
vmalloc earlyreserve + Z2*VMALLOC OEFESEI-I) & *(VMALBOGC OFFSET=L):) 
#ifdef CONFIG HIGHMEM /* 支持 高 端 内 存 * / 
# define VMALLOC END (PKMAP BASE-2*PAGE SIZE) 
#telse /* 不 支持 高 端 内 存 */ 
# define VMALLOC END (FIXADDR START-Z^PAGE SIZE} 
#endif 


当 系 统 物理 内 存 超过 4GB 时 ， 必 须 使 用 CPU 的 扩展 分 页 (PAE) 模式 所 提供 的 64 位 页 目录 项 才能 和 存 取 
到 4GB 以 上 的 物理 内 存 ， 这 需要 CPU 的 支持 。 加 入 了 PAE 功 能 的 Intel Pentium Pro 及 以 后 的 CPU 人 允许 内 存 最 
大 可 配置 到 64GB， 它 们 具备 36 位 物理 地 址 空间 寻 址 能 


由 此 可 匈 ， 对 于 32 位 的 x86 而 言 ， 在 3~4GB 之 间 的 内 核 宇 间 中 ， 从 低地 址 到 融 地 址 依次 为 : FSA E 
BUR DX B8 A Tir vmalloc Ke 301 4 £27 Bo si DX — BS I t — re 3 P T£ EL] DX — 7 Hd va T ALS DX P ERE. o 


百 接 进行 映射 的 896MB 物 理 内 存 其 实 驻 分 为 两 个 区 域 ， 在 低 于 16MB 的 区 域 ，ISA 设 备 可 以 做 DMA， 
所 以 该 区 域 为 DMA 区 域 (内 核 为 了 保证 ISA 了 驱动 在 申请 DMA 绥 冲 区 的 时 候 ， 通 过 GFP DMA 标 记 可 以 确保 
申请 到 16MB 以 内 的 内 存 ， 所 以 必须 把 这 个 区 域 列 为 一 个 单独 的 区 域 窜 理 ) ; 16MB-896MBZ IR] BS Z8 AN 
Xio TF 896MBI AAR Fam PE DCTÀ T o 


32 位 ARM Linux) A TZ zx [R] HE HUS] x86 A HE HER SCM Documentation/arm/memory.txt25 tH f 


ARM Linux 的 内 存 映 射 情 况 。0xfff0000~0xfft 仁 是 “CPU vector page", BI [o] EK AHEHE. 
0xffc00000~0xffeffff 是 DMA 内 存 映 射 区 域 ，dma alloc xxx 族 函数 把 DMA 绥 冲 区 映射 在 这 一 段 ， 

VMALLOC START-VMALLOC _ END-1 十 vmalloc 和 ioremap 区 域 〈 在 vmalloc 区 域 的 大 小 可 以 配置 ， 通 

过 “vmalloc=” 这 个 启动 参数 可 以 指定 ) ，PAGE OFFSET~high memory-1 是 DMA 和 正常 区 域 的 映射 区 域 ， 
MODULES VADDR-MODULES END-1 是 内 核 模块 区 域 ，PKMAP BASE-PAGE OFFSET-1é mi Yim P T£ HÀ 
射 区 。 假 设 我 们 把 PAGE OFFSET 和 定义 为 3GB， 实 际 上 Linux 内 核 模块 位 于 3GB-16MB~3GB-2MB， 高端 内 


存 映 射 区 则 通常 位 于 3GB-2MB~3GB。 


图 11.7 给 出 了 32 位 ARM 系 统 Linux 内 核 地 址 空间 中 的 内 核 檬 块 区 域 、 融 并 内 存 映 册 区 、vmalloc、 问 量 
表 区 域 等 。 我 们 假定 编译 内 核 的 时 候选 择 的 是 VMSPLIT 3G (3G/1G user/kernel split) 。 如 果 用 户 选 择 的 
是 VMSPLIT 2G (2G/2G user/kernel split)， 则 图 11.7 中 的 内 核 模 块 开始 于 2GB-16MB，DMA 和 常规 内 存 
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图 11.7 32 位 ARM 系 统 中 Linux 内 核 的 地 址 空间 


ARM 系 统 的 Linux 之 所 以 把 内 核 模 块 安置 在 3GB 或 者 2GB 附 近 的 16MB 范 围 内 ， 主 要 是 为 了 实现 内 核 模 
块 和 内 核 本 身 的 代码 段 之 间 的 短 跳 转 。 


对 于 ARM SoC 而 言 ， 如 有 果 心 片 内 部 有 的 硬件 组 件 的 DMA 引 苟 访 问 内 存 时 有 地 址 空间 限制 ( 某 些 空间 
访问 不 到 〉， 比 如 假设 UART 控 制 器 的 DMA 只 能 访问 32MB， 那 么 这 个 低 32MB 束 是 DMA 区 域 ，32MB 到 高 
师 内 人 存 地 址 的 这 段 称 为 利 规 区 域 ， 再 之 上 的 称 为 高 病 内 存 区 域 。 


图 11.8 给 出 了 几 种 DMA、 利 规 、 高 病 内 存 区 域 可 能 的 分 布 ， 在 第 一 种 情况 下 ， 有 使 件 的 DMA 引 擎 不 
能 访问 全 部 地 址 ， 且 内 存 较 大 而 无 法 全 部 在 内 核 衬 间 虚 拟 地 址 映射 下 ， 存 放 有 3 个 区 域 ;， 第 二 种 情况 下 ， 
疫 有 全 件 的 DMA 引 擎 不 能 访问 全 部 地 址 ， 且 内 存 较 大 而 无 法 全 部 在 内 核 空 间 虚 拟 地 址 映射 下 ， 则 第 规 区 
域 实 际 退 化 为 0， 第 三 种 情况 下 ， 有 使 件 的 DMA 引 擎 不 能 访问 全 部 地 址 ， 且 内 人 存 较 小 可 以 全 部 在 内 核 空 间 
虚拟 地 址 映射 下 ， 则 高 媚 内 存 区 城 实 际 退 化 为 0， 第 四 种 情况 下 ， 没 有 便 件 的 DMA 引 擎 不 能 访问 全 部 地 
址 ， 且 内 存 较 小 可 以 全 部 在 内 核 空 间 虚 拟 地 址 映射 下 ， 则 常规 和 高 端 内 存 区 域 实 际 退 化 为 0。 


m mnm x uir Zz be 内 存 大 ， 有 人 硬件 的 DMA 
— WM | "rk. fett 

: : 内 存 大 ， 设 有 硬件 的 DMA 

da ore ks SDMA 

m 内 存 小 ， 没有 硬件 ee 
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方 为 单位 进行 管理 ， 因 此 Linux 最 底层 的 内 存 申 请 都 是 以 2 为 单位 的 。Buddy 算 法 最 主要 的 优 点 是 避免 了 外 
部 雁 片 ， 任 何 时 候 区 域 里 的 空 症 内 存 都 能 以 2 的 n 次 方 进 行 拆 分 或 合并 。 


É11.9 buddy 算 法 
/procbuddyinfo 会 显示 每 个 区 域 里 面 2n 的 空 亲 页 面 分 布 情况 ， 比 如 : 


Scat /proc/buddyinfo 


Node 0, zone DMA 8 5 2 7 8 3 O O 
0 1 O 
Node 0, zone Normal 2002 1202 524 Ley 183 71 7 0 
0 1 1 


ERARE m mAAR, DMA ERLE AAA 8S, ERRORS, HERA 
页 空闲 的 有 2 个 ， 以 此 闫 推 : 第 规 区 域 里 面 1 页 空 朵 的 还 有 2002 个 ， 连 续 2 页 空 亲 的 有 1252 个 ， 以 此 区 推 。 


对 于 扩 核 物理 内 存 映射 区 的 虚拟 内 存 〈 即 从 DMA 和 币 规 区 匡 映 射 过 来 的 ) ， 使 用 virt to_phys《〈) 可 
以 实现 内 核 虚 拟 地 址 转化 为 物理 地 址 。 与 乙 对 应 的 函数 为 phys to_virt〈) ， 它 将 物理 地 址 转化 为 内 核 虚 拟 


注意 : 上 述 virt to phys © 和 phys to virt O 方法 仅 适 用 于 DMA 和 第 规 区 域 ， 高 疾 内 存 的 虚拟 地 址 
与 物理 地 址 之 间 不 存在 如 此 人 窗 单 的 换算 关系 。 


11.3 内 存 存 取 


11.3.1 ”用户 空间 内 存 动态 申请 


在 用 户 空 间 中 动态 申请 内 存 的 水 数 为 malloc() ， 这 个 函数 在 各 种 操作 系统 上 的 使 用 都 是 一 致 的 ， 
malloc () 申请 的 内 存 的 释放 图 数 为 ffee O 。 对 于 Linux 而 言 ，C 库 的 malloc ©) 国 数 一 般 通过 brk ©) 和 
mmap CO 两 个 系统 调用 从 内 核 申 请 内 存 。 


由 于 用 户 空 间 C 库 的 malloc 算 法 实际 上 具备 一 个 二 次 管理 能 力 ， 所 以 并 不 是 每 次 申请 和 释放 内 存 都 一 
定 伴随 着 对 内 核 的 系统 调用 。 比 如 ， 代 码 清 单 11.2 的 应 用 程序 可 以 从 内 核 拿 到 内 存 后 ， 立 即 调用 
free O ， 由 于 free O 之 前 调用 了 mallopt (M TRIM THRESHOLD， 一 1) 和 
mallopt (M_MMAP MAX, 0) ， 这 个 ffee〈) 并 不 会 把 内 存 还 给 内 核 ， 而 只 是 还 给 了 C 库 的 分 配 算法 (内 
存 仍然 属于 这 个 进程 ) ， 因 此 之 后 所 有 的 动态 内 存 申请 和 释放 都 在 用 户 态 下 进行 。 


代码 清单 11.2” ”用户 空间 凡人 存 申请 以 及 mallopt 


1l#include <malloc.h> 

2#include <sys/mman.h> 

3 

4#define SOMESIZE (100*1024*1024) // 100MB 
S 

oint main(int argc, char *argv[l) 

71 

8 unsigned char *buffer; 


9 Tne 17 

10 

11 if (mlockall (MCL CURRENT | MCL FUTURE) ) 
LZ mallopt(M TRIM THRESHOLD, -1); 

13 mallopt(M MMAP MAX, 0); 

14 


15 buffer = malloc (SOMESIZE) ; 
16 if (!buffer) 
ME exití(-1); 


19 7s 
20 * Touch each page in this piece of memory to get it 
21 * mapped into RAM 


Ag wn 
29 for (L = 07 2 < S0MESDIAE; X +S page S126) 
24 buffer[i] = 0; 


25 free(buffer); 
26 7 <do your RI-Thino> 4/7 


28 return QO; 


夯 外 ，Linux 内 核 总 是 有 来 用 按 需 调 页 CDemand Paging) ， 因 此 当 malloc O 返回 的 时 候 ， 虽 然 是 成 功 
返回 ， 但 是 内 核 并 没有 真正 给 这 个 进程 内 存 ， 这 个 时 候 如 果 去 读 申 请 的 内 存 ， 内 容 全 部 是 0， 这 个 页 面 的 
Re RR. RAS SSR RAN, ARAN Re, BIER SRA EE. 


11.3.2 内核 空 间 内 存 动 态 申 请 


在 Linux 内 核 空 间 中 申请 内 存 涉及 的 函数 主要 包括 kmalloc O ~ _ get free pages () 和 vmalloc ©) 
Sk. kmalloc © 和 get free pages O 《及 其 类 似 函 数 ) 申请 的 内 存 位 于 MA 和 常规 区 域 的 映射 区 ， 而 
日 在 物理 上 也 是 连续 的 ， 它 们 与 真实 的 物理 地 址 只 有 一 个 固定 的 偏 移 ， 因 此 存在 较 简单 的 转换 关系 。 而 
vmalloc €) 在 虚拟 内 存 空间 给 出 一 块 连续 的 内 存 区 ， 实 质 上 ， 这 片 连续 的 虚拟 内 存在 物理 内 存 中 并 不 一 
定 连续 ， 而 vmalloc © 申请 的 虚拟 内 存 和 物理 内 存 之 间 也 没有 简单 的 换算 关系 。 


1 .kmalloc ©) 


void “kmnal boc (size t Size, Ant flags); 


给 kmalloc O 的 第 一 个 参数 是 要 分 配 的 块 的 大 小 ; 第 二 个 参数 为 分 配 标志 ， 用 于 控制 kmalloc ©) 的 
行为 。 


最 第 用 的 分 配 标 志 古 GFP_KERNEL， 其 含义 是 在 内 核 空间 的 进程 中 申请 内 和 存 。kmalloc〈) BUE AK 
fi get free pages O 来 实现 ， 分 配 标 志 的 前 级 GFP 正 好 是 这 个 底层 函数 的 缩写 。 使 用 GFP KERNEL 
标志 申请 内 存 时 ， 夺 暂时 不 能 满足 ， 则 进程 会 睡 虐 等 竺 页 ， 即 会 引起 阻塞 ， 因 此 不 能 在 中 断 上 下 文 或 持 有 
自 旋 锁 的 时 候 使 用 GFP KERNE 申 请 内 存 。 


由 于 在 中 断 处 理 函 数 、tasklet 和 内 核定 时 元 等 非 进程 上 下 文中 不 能 阻 竖 ， 所 以 此 时 驱动 应 当 使 用 
GFP AIOMIC 标 志 来 申请 内 存 。 当 使 用 GFP ATIOMIC 标 志 申 请 内 存 时 ， 若 不 存在 空闲 页 ， 则 不 等 待 ， 直 
接 返 回 。 


其 他 的 申请 标志 还 包括 GFP_USER“《“ 用 来 为 用 户 衬 间 页 分 配 内 存 ， 可 能 阻塞 ) 、 
GFP_HIGHUSER (2(U\GFP_USER, (HE Arm 478d) . GFP DMA 从 DMA 区 域 分 配 内 存 )、 
GFP NOIO (不 允许 任何 W/O 初始 化 )、GFP NOFS (不 允许 进行 任何 文件 系统 调用 )、 
__GFP HIGHMEM 《指示 分 配 的 内 存 可 以 位 于 高 端 内 存 ) 、 GFP COLD (请 求 一 个 较 长 时 间 不 访问 的 
页 ) 、_GFP NOWARN 〔〈 当 一 个 分 配 无 法 满足 时 ， 阻 止 内 核 用 出 警告 ) 、_GFP HIGH (局 优先 级 请 
求 ， 人 允许 获得 被 内 核 保留 给 紧急 状况 使 用 的 最 后 的 内 存 页 ) 、_GFP REPEAT. 《分 配 失败 ， 则 尽力 重复 答 
i)  GFP NOFAIL (标记 只 许 申 请 成 功 ， 不 推荐 ) 和 ”GFP NORETRY (〈 奋 申请 不 到 ， 则 立即 放 痉 ) 


4B 


使 用 kmalloc ©) 申请 的 内 存 应 使 用 kfree〈) TE, IX -SER ACE VA AIS IP 28 [RH] free O 类 似 。 


2. get free pages () 


. get free pages O 系列 函数 / 宏 本 质 上 是 Linux 内 核 最 辰 层 用 于 获取 裕 亲 内 存 的 方法 ， 因 为 撒 层 的 
buddy 算 法 以 2n 页 为 单位 意 理 空 亲 内存， 所 以 最 展 层 的 内 存 申请 总 是 以 2n 页 为 单位 的 。 


. get free pages O 系列 图 数 / 宏 包括 get zeroed page () 、 get free page () 和 
|. get free pages () 。 


get zeroed page(unsigned int flags); 
APR UE [6] — ^P 18 PEST 04 ER] RHET IF BEALI e 
|| get free page(unsigned int flags); 
该 宏 返回 一 个 指 问 新 外 的 指针 但 是 该 页 不 清 零 ， 它 实际 上 为 : 


#define | get free page(gfp mask) \ 
. Jet free pages((gip mask) FU 


Wize VFA | PII get free pages O 申请 1 页 。 


”get Iree Pages (unsigned ant flags, unsigned anc Order); 


该 国 数 可 分 配 多 个 页 并 返回 分 配 内 存 的 首 地 址 ， 分 配 的 页 数 为 2order， 分 配 的 页 也 不 清 零 。order 人 允许 
的 最 大 值 是 10 〈 即 1024 页 ) 或 者 11〈 即 2048 页 ) ， 这 取决 于 具体 的 人 硬件 平台 。 


. get free pages () 和 get zeroed page O 在 实现 中 调用 了 alloc pages () KZ alloc pages © 既 可 
以 在 内 核 空 间 分 配 ， 也 可 以 在 用 户 空间 分 配 ， 其 原型 为 : 


struct page ~ alloc pages (int. gip mask, unsigned long order); 


参数 含义 与 “get free pages O 类 似 ， 但 它 返 回 分 配 的 第 一 个 页 的 描述 符 而 非 首 地 址 。 
使 用 get free pages () ARF PRB AA aA A FE ECORI BS SURE: 


void free page(unsigned long addr); 
void Tree pages (unsigned: long addr, unsigned long order); 


. get free _ pages 等 图 数 在 使 用 时 ， 其 申请 标志 的 值 与 kmalloc O 完全 一 样 ， 各 标志 的 含义 也 与 
kmalloc () 完全 一 致 ， 最 常用 的 是 GFP KERNEL#IGFP ATOMIC. 


3.vmalloc ©) 


vmalloc ©) 一 般 只 为 存在 于 软件 中 《没有 对 应 的 便 件 意义 ) 的 较 大 的 顺序 缓冲 区 分 配 内 存 ， 


vmalloc () 远大 于 get free pages O 的 开销 ， 为 了 完成 Vvmalloc ©) ， 新 的 页 表 项 需要 要 建立 。 因 此 ， 
只 是 调用 vmalloc《〈) 来 分 配 少量 的 内 存 《〈《 如 1 页 以 内 的 内 存 ) EAE 


vmalloc ©) 申请 的 内 存 应 使 用 vfree O 释放 ，vmalloc () Mvfree ©) 的 函数 原型 如 下 : 


void *vmalloc(unsigned long size); 
void vfree(void * addr); 


vmalloc €) 不 能 用 在 原子 上 下 文中 ， 因 为 它 的 内 部 实现 使 用 了 标志 为 GFP_KERNELH 的 kmalloc () 。 


使 用 vmalloc ©) 函数 的 一 个 例子 函数 是 create module O 系统 调用 ， 它 利用 vmalloc ©) 函数 来 获取 被 
创建 模块 需要 的 内 存 空间 。 


vmalloc O 在 申请 内 存 时 ， 会 进行 内 存 的 映射 ， 改 变 页 表 项 ， 不 像 kmalloc《〈) 实际 用 的 是 开机 过 程 
中 就 映射 好 的 DMA 和 和 党 规 区 域 的 页 表 项 。 因 此 vmalloc ©) 的 虚拟 地 址 和 物理 地 址 不 是 一 个 简单 的 线性 映 
出 。 


4.slab 与 内 存 池 


一 方面 ， 完 全 使 用 页 为 单元 申请 和 释放 内 存 容易 导致 浪费 〈 如 果 要 申请 少量 字 节 ， 也 需要 用 1 页 ) ， 
另 一 方面 ， 在 操作 系统 的 运作 过 程 中 ， 经 常会 涉及 大 量 对 象 的 重复 生成 、 使 用 和 释放 内 存 问 题 。 在 Linux 
系统 中 所 用 到 的 对 象 ， 比 较 典型 的 例子 是 inode、task_struct 等 。 如 果 我 们 能 够 用 合适 的 方法 使 得 对 象 在 前 
后 两 次 被 使 用 时 分 配 在 同一 块 内 存 或 同一 类 内 存 空间 且 保留 了 基本 的 数据 结构 ， 就 可 以 大 大 提高 效率 。 

slab 算 法 就 是 针对 上 述 特点 设计 的 。 实 际 上 kmalloe O 就 是 使 用 slab 机 制 实现 的 。 


slab 旦 建立 在 buddy 算 法 之 上 的 ， 它 从 buddy 算 法 合 到 2n 页 面 后 再 次 进行 二 次 寡 理 ， 这 一 点 和 用 户 衬 间 
的 C 库 很 像 。slab 申 请 的 内 存 以 及 基于 slab 的 kmalloc O 申请 的 内 存 ， 与 物理 内 存 之 间 也 是 一 个 简单 的 线 
TEMI e 


(1) 创建 slab 绥 存 


struct kmem cache “kmem cache Creacve (cons. char “name; Size. L S126, 
size t align; unsigned Jong flags, 
void (*Cctor)(vold^*, Struct kmen cache *, unsigned long), 
void (*CGtor)(vol1d*; Strucu-kmem cache *, Unsigned long); 


kmem cache create O 用 于 创建 一 个 slab 缓 存 ， 它 是 一 个 可 以 保留 任意 数目 且 全 部 同样 大 小 的 后 备 组 
存 。 参 数 size 是 要 分 配 的 每 个 数据 结构 的 大 小 ， 参 数 flags 古 控制 如 何 进行 分 配 的 位 掩 码 ， 包 括 
SLAB HWCACHE ALIGN 每 个 数据 对 象 做 对 齐 到 一 个 缓存 行 ) 、SLAB_ CACHE DMA (要 求 数 据 对 象 
在 DMA 区 域 中 分 配 〉 等。 


(2) 分 配 slab 绥 存 


void *kmem cache e@lloc(struce Kmem cache “cachep, Grip t tlags) ; 


"EZ fEkmem cache create O 创建 的 Slab 后 备 绥 存 中 分 配 一 块 并 返 


(3) 释放 slab 绥 存 


void kmem cache free(struct kmem cache *cachep, void *objp); 


上 述 函 数 释 放 由 kmem cache alloc () 分 配 的 绥 存 。 


(4) 收回 slab 绥 存 


int. kmem cache destroy (struct kmem cache *cachep); 


1 
1 


代码 清单 11.3 给 出 了 slab 绥 存 的 使 用 范例 。 


代 但 清单 11.3 slabZ&Tr fs FH yi. fn] 


1/* 创建 Sab 缓 存 */ 


2static kmem cache t *XXX Cachep; 
J CaChep = Kilem Cache Oreatel" Xxx". SIizcori(istruct xxx), 
4 0, SLAB HWCACHE ALIGN | SLAB PANIC, NULL, NULL); 


5/* 分 配 slab 缓 存 */ 

OSLIUCUC XXX "CUR 

?ctx = kmem cache alloc(xxx cachep, GFP KERNEL); 
8.../* 使 用 ab 缓存 */ 

9/* 释放 Sab 缓 存 */ 

Qkmem cache free(xxx cachep, ctx); 

lkmem cache destroy(xxx cachep); 


TE At BE ISE/proc/slabinfo Ti Ay EAS XI 24 BI slab HY 27 Bio RU 8 H fei Ot, 


回首 地 址 指针 。 


i5 1T cat/proc/slabinfo: 


# cat /proc/slabinfo 

slabintfo = version: 2.1 

# name Sactive o0b]s «mum objs «oDgsize-— <cb perslab> <pagespersilab- + 
tunables «Limrt- <batchcount> €sharedractor- s slabdata «active slabs> 
«num slabs» <sharedavail> 

1sSors anode cache 66 66 360 22 2 : tunables 0 0 0 .3 
slabdata d 3 0 

ext4 groupinfo 4k 156 LOG 104 39 1 : tunables 9 O (E 
slabdata 4 4 0 

UDPLITEv6 O 0 768 21 4 : tunables O 0 D s 
slabdata O 0 O 

UDPv6 84 84 768 Al 4 : tunables 0 O 0 : 
slabdata 4 4 O 

tw sock ICPvO O O 192 Ze L x vronables O 0 U s 
slabdata O 0 O 

TCPv6 88 88 1472 22 o s. tunables O O J 3 
slabdata 4 4 0 

zcache objnode 9 9 22 50 2 : tunables 9 9 os 
slabdata O O 0 

kcopyd job O 9 2344 13 8 : tunables 9 9 Q : 
slabdata O 0 O 

dm uevent O O 2464 SG 8 : tunables O 0 U = 
slabdata O 0 O... 


注意 : slab 不 是 要 代 蔡 ”get free pages O ， 其 在 最 底层 仍然 依赖 于 


= get free pages ©) 


slab Æ JE 


每 次 申请 1 页 或 多 页 ， 之 后 再 分 隔 这 些 页 为 更 小 的 单元 进行 管理 ， 从 而 节省 了 内 存 ， 也 提高 了 slab 缓 冲 


Zs Hj 


对 象 的 访问 效率 。 


除了 slab 以 外 ， 在 Linux 内 核 中 还 包含 对 内 存 池 的 文 持 ， 内 和 存 池 拉 术 也 是 一 种 非常 经 典 的 用 于 分 配 大 量 
XY BRA J th AF EA « 


在 Linux 内 核 中 ， 与 内 存 池 相关 的 操作 包括 如 下 几 种 。 


(1) 创建 内 存 池 


IemooolL © "*menpoolL Creante(1int mn ne, memnpool lloc b “a bloc, Fn, 
memDetr res. uu 1596 Th Yore “oor Gatal? 


mempool create () 六 数 用 于 创建 一 个 内 存 池 ，min nr 参数 是 需要 预 分 配对 象 的 数 日 ，alloc fni 
free 各 是 指 问 内 存 池 机 制 提供 的 标准 对 象 分 配 和 回收 函数 的 指针 ， 其 原型 分 别 为 : 


typedet wosd *(mempool. alloc L) nnt gp masc, vord.* pool. data); 


和 


typedet word «mempooL tree uc) (vord: *elemenu, vord ^pool data); 


pool data 是 分 配 和 回收 函数 用 到 的 指针 ，gfp mask 是 分 配 标记 。 只 有 当 GFP WAIT 标 记 被 指定 时 ， 
4] BG ER CZ] HC. 


(2) 分 配 和 回收 对 象 
在 内 存 池 中 分 配 和 回收 对 象 需 由 以 下 函数 来 完成 : 


võrd *mempool alloctümempool © *pool, Int grip mask); 
vord mempool Tree (void “element, mempool t *pool); 


mempool alloc O 用 来 分 配对 象 ， 如 果 内 存 闻 分 配 右 无 法 提供 内 存 ， 那 么 束 可 以 用 预 分 配 的 池 。 
(3) 回收 内 存 池 


vord mempoob destroy (mempool. T ~pool); 


由 mempool create () 函数 创建 的 内 存 池 需 由 mempool destroy O 来 回收 。 


11.4 设备 IO 端口 和 IJO 内 存 的 访问 


设备 通常 会 提供 一 组 寄存 器 来 控制 设备 、 


读 写 设 备 和 获取 设备 状态 ， 
态 寄存 器 。 这 些 寄存 器 可 能 位 于 IO 空间 中 ， 也 可 能 位 于 内 存 空 


趾 ; 当 位 于 内 看 空 间 时 ， 对 应 的 内 存 空 间 被 称 为 /OO 内存 。 


BI $25 till ey AF AN 
间 中 。 当 位 于 IO 空间 时 ， 


NULLI. 


ATK 


1s IERA L/O imi 


11.4.1 ”Linux WO 端口 和 LO 内 存 访问 接口 


1.I/O?g O 


fELinux te So A, MEH Linux A pe DEI] AOR E xe zT V/OZ A m, xe p AU eo JL 
种 。 


1 ) 读 写 字 节 端口 〈8 位 宽 ) 。 


unsigned inb(unsigned port); 
void outb (unsigned char byte, unsigned port); 


2) 该 写字 端口 (16 位 宽 ) 。 


unsigned inw(unsigned port); 
void outwiunsrigned shore word, Unsigned pott); 


3) 该 写 长 字 端 口 (G2 6) 


unsigned inl(unsigned port); 
void outl (unsigned longword, unsigned port); 


4) ZS ee. 


void insbiunsigned port, void *addr, unsigned long count); 
void outsb(unsrigned port, void *addr, unsigned long count) 


5) insb ©) Aim A port 4a técount ^£ Wm L1, Jf IE EZR AaddrfRIH JV T£: outsb ©) 将 addr 
JARAT E count“ 578 LEZ 5) A WA port7T 48 P] H o 


6) 读 写 一 串 字 。 


void insw(unsigned port, void *addr, unsigned long count); 
void outsw(unsigned port, void *addr, unsigned long count); 


7) 旋 写 一 串 长 字 。 


void insl(unsigned port, void *addr, unsigned long count); 
void outsliunsigued port, void *addr, unsigned long count); 


上 上述 各 函数 中 IO 交口 亏 port 的 闫 型 高 度 依赖 于 具体 的 便 件 平台 ， 因 此 ， 这 里 只 是 与 出 f unsigned. 
2. VOW f£ 


在 内 核 中 访问 VO 内 存 (通常 是 蕊 片 内 部 的 各 个 人 fC、SPI、USB 等 控制 器 的 寄存 器 或 者 外 部 内 存 总 线 


上 的 设备 ) 之 前 ， 需 首先 使 用 ioremap O 函数 将 设备 了 所 处 的 物理 地 址 映射 到 虚拟 地 址 上 。ioremap〈() 的 
原型 如 下 : 


void *1ioremap (unsigned long offset, unsigned long size); 


ioremap O 5jvmalloc O 关 似 ， 也 需要 建立 新 的 页 表 ， 但 是 它 并 不 进行 vmalloce《〈) 中 所 执行 的 内 存 
分 配 行 为 。ioremap ©) 返回 一 个 特殊 的 虚拟 地 址 ， 该 地 址 可 用 来 存 取 特定 的 物理 地 址 范围 ， 这 个 虚拟 地 
址 位 于 vmalloc 映 射 区 域 。 通 过 ioremap ©) 获得 的 虚拟 地 址 应 该 和 要 iounmap O 函数 释放 ， 其 原型 如 下 : 


voOLd sounmapiwoard. * addr); 


ioremap () 有 个 变 体 是 devm ioremap O ， 类 似 于 其 他 以 devm FAKA Witdevm_ioremap () 
进行 的 映射 通 钊 不 需要 在 驱动 退出 和 出 钳 处 理 的 时 候 进 行 iounmap () 。devm ioremap () 的 原型 为 : 


void: omem “devi .Opemap (struc device. dev, resource size L ObESeL, 
unsigned long size); 


FE ae FRU (aN eg fone ) 被 映射 到 虚拟 地 址 之后 ， 尽 管 可 以 直接 通过 指针 访问 这 些 地 
址 ， 但 是 Linux 内 核 推荐 用 一 组 标准 的 API 来 完成 设备 内 存 映 射 的 虚拟 地 址 的 读 写 。 


该 寄存 莫 用 readb relaxed () . readw relaxed (Ò . readl relaxed () . readb () . readw () 、 
readl () 3X —2HAPL LASS AIESbit. l6bit. 32bitH Ziff zs, WA _relaxed/SRWIMASA_relaxed nA 
版 本 的 区 别 是 没有 _relaxed 后 级 的 版 本 包含 一 个 内 存 屏 障 ， 如 : 


#define readb(c) ({ u8 | v = readb relaxed(c); | iormb(); v; }) 
#define readw(c) ({ ul6 v = readw relaxed(c); . iormb(); v; }) 
#define readl(c) ({ u32 v = readl relaxed(c); —iormb(); v; }) 


lab ffaH]writeb relaxed () ~ writew relaxed () ~ writel relaxed () ~ writeb () ~ writew (2 、 


writel () 3x —2HAPL LÀ4ral*38bit. l6bit, 32bit'] AIFA 1x/H relaxed/n RREA relaxed) 2& UT] 
版 本 的 区 别 是 前 者 包含 一 个 内 存 屏 障 ， 如 : 


#define writeb(v,c) CGU _ <kOwmb-() 7" WrLeeb. reloxed(ovychr F) 


#define writew(v,c) (|l. -powmb() 7 wrrtew relaxed(vyc)r J) 
#define writel(v,c) (1... cowmboi). writer relased (VrO J) 


11.4.2 ”申请 与 释放 设备 的 IO 痕 口 和 LO 内 存 
1.7O 端 口 申 请 
Linux 内 核 提 供 了 一 组 函数 以 申请 和 释放 IO 端口 ， 表 明 该 驱动 要 访问 这 片区 域 。 


SLIUCL. resource *request regron(tunsagmed long SC unsigned long ny Const Char namne); 


函数 向 内 核 申 请 n 个 端口 ， 这 些 端口 从 first 开 始 ，name 参 数 为 设备 的 名 称 。 如 果 分 配 成 功 ， 则 返 
回 值 不 是 NULL， 如 果 返 回 NULL， 则 意味 着 申请 端口 失败 。 


当 用 request region O 申请 的 IO 端口 使 用 完成 后 ， 应 当 使 用 release region O 函数 将 它们 归还 给 系 
统 ， 这 个 函数 的 原型 如 下 : 


vold release region (unsigned long start, unsigned long m); 


2. VOW 4 Fi 


同样 ，Linux 内 核 也 提供 了 一 组 函数 以 申请 和 释放 IO 内 存 的 范围 。 此 处 的 “申请 ?吉明 该 驱动 要 访问 这 
卢 区 域 ， 它 不 会 做 任何 内 存 映 射 的 动作 ， 更 多 的 是 次 似 于 “eservation 的 概念 。 


otruct resource *request mem region(unsigned long Start, unsigned long len, Char ^name); 


文 个 函数 向 内 核 申 请 n 个 内 存 地 址 ， 这 些 地 址 从 first 开 始 ，name 参 数 为 设备 的 名 称 。 如 果 分 配 成 功 ， 
则 返回 值 不 是 NULL， 如 果 返 回 NULL， 则 意味 着 申请 IO 内 存 失 败 。 


当 用 request mem region () 申请 的 IO 内 存 使 用 完成 后 ， 应 当 使 用 release mem region O 函数 将 它们 
归还 给 系统 ， 这 个 函数 的 原型 如 下 : 


void zelease mem.regron(unsrigned long Start, unsagned long ten); 


request region () 和 request mem region O 也 分 别 有 变 体 ， 其 为 devm request region () 和 


devm request mem region () 。 


11.4.3 ”设备 IO 端口 和 IO 内 存 访 问 流 程 


综合 11.3 闻 和 本 市 的 内 容 ， 可 以 归纳 出 设备 张 动 访问 IO 问 口 和 LO 内 存 的 步骤。 


IO 问 口 访问 的 一 种 途径 是 直接 使 用 IO 问 口 操作 函数 : 在 设备 打开 或 驱动 模块 被 加 载 时 申请 IO 端口 区 
域 ， 之 后 使 用 inb ©) 、outb O 等 进行 妆 口 访问 ， 最 后 ， 在 设备 关闭 或 驱动 家 番 载 时 释放 IO 疹 口 范围 。 
整个 流程 如 图 11.10 所 示 。 


inb 0 、outb 0 等 “| 在 设备 驱动 初始 化 、write()、 
read () ~ ioctl O 等 函数 中 进行 


在 设备 驱动 模块 印 载 或 release() 
函数 中 进行 





release. region() 


图 11.10 | /O?gi O IJ I] Yr 


1/O 内 存 的 访问 步骤 如 图 11.11 所 示 ， 首 先是 调用 request mem region O 申请 资源 ， 接 着 将 寄存 器 地 址 
通过 ioremap〈) 映 冉 到 内 核 空 间 虚 拟 地 址 ， 之 后 就 可 以 通过 Linux 设 备 访问 编程 接口 访问 这 些 设 备 的 寄存 
器 了 。 访 问 完成 后 ， 应 对 ioremap O 申请 的 虚拟 地 址 进行 释放 ， 并 释放 release mem region © 申请 的 IO 
内 存 资 源 。 


request mem region() 


ioremap() 


readb. readh writeb, 在 设备 驱动 初始 化 、write()、 
writel 等 read()、ioctl0) 等 函数 中 进行 


在 设备 驱动 模块 加 载 或 
open) PK ŽP JET 


iounmap() 
TEV ti DRAE aR BK 
release() PR ŽUP VET 


release mem region() 





图 11.11 IO 内 存 访 问 流 程 


有 时 候 ， 张 动 在 访问 寄存 器 或 IO 端口 前 ， 会 省 去 request mem region () ~ request region OO 这 样 的 
调用 O 


11.4.4 将 设备 地 址 映射 到 用 户 空 间 
L.A ERAS 5S VMA 


一 段 情 况 下 ， 用 户 空间 古人 不 可 能 也 不 应 该 直接 访问 设备 的 ， 但 是 ， 设 备 驱 动 程序 中 可 实现 mmap O 
函数 ， 这 个 冰 数 可 使 得 用 户 空 间 能 直接 访问 设备 的 物理 地 址 。 实 际 上 ，mmap〈) 实现 了 这 样 的 一 个 映射 
过 程 : 它 将 用 户 衬 间 的 一 段 内 存 与 设备 内 存 天 联 ， 当 用 户 访问 用 户 空 间 的 这 段 地 址 范围 时 ， 实 际 上 会 转化 
为 对 设备 的 访问 。 


这 种 能 力 对 于 显示 适 配 耸 一 类 的 设备 非常 有 意义 ， 如 末 用 户 空 间 可 二 接 通 过 内 存 了 映射 访问 时 人 存 的 话 ， 
屏 融 帆 的 各 点 像 系 将 不 央 圾 要 一 个 从 用 性 空间 到 内 核 空 间 的 复制 的 过 程 。 


mmap () 必须 以 PAGE SIZE 为 单位 进行 映射 ， 实 际 上 ， 内 存 只 能 以 页 为 单位 进行 四 射 ， 在 要 映射 非 
PAGE _ SIZE 你 数 倍 的 地 址 范围 ， 要 爷 进 行 页 对 齐 ， 强 行 以 PAGE SIZE 的 倍数 大 小 进行 四 射 。 


从 file_ operations 文 件 操作 结构 体 可 以 看 出 ， 张 动 中 mmap ©) 函数 的 原型 如 下 : 


En 


IKa H mmap O 函数 将 在 用 户 进行 nmap O 系统 调用 时 最 终 修 调用 ，mmap〈) 系统 调用 的 原型 
与 fle operations 中 mmap ©) 的 原型 区 别 很 大 ， 如 下 所 示 : 


gaddi c mmap (caddr t addr, Size t Len, int prot, int flago; int fd, OLI © OLLSeL); 


参数 名 为 文件 描述 符 ， 一 般 由 open O 返回 ， 和 也 可 以 指定 为 -1， 此 时 需 指定 flags 参 数 中 的 
MAP ANON， 表 明 进 行 的 是 匿名 映射 。 


len 征 映射 到 调用 用 户 空 间 的 字 节 数 ， 它 从 被 映射 文件 开头 ofRet 个 字 布 开始 算 起 ，ofRet 参 数 一 般 设 为 
0， 表 示 从 文件 头 开始 映射 。 


prot 参 数 指定 访问 权限 ， 可 取 如 下 几 个 值 的 “或 >， PROT READ (可 读 ) ~ PROT WRITE (可 写 ) 、 
PROT EXEC (可 执行 ) 和 PROT NONE 〈 不 可 访问 ) 。 


参数 addr 指 定 文 件 应 被 映射 到 用 户 空 间 的 起 始 地 址 ， 一 般 被 指定 为 NULL， 这 样 ， 选 择 起 始 地 址 的 任 
务 将 由 内 核 完成 ， 而 函数 的 返回 值 了 是 遇 射 到 用 户 衬 间 的 地 址 。 其 类 型 caddr t 实 际 上 可 是 void*。 


当 用 户 调用 mmap ©) 的 时 候 ， 内 核 会 进行 如 下 处 理 。 


1) 在 进程 的 虚拟 空间 查找 一 块 VYMA。 


2) 将 这 块 VMA 进 行 映射 。 

3) 如 果 设 备 驱 动 程序 或 者 文件 系统 的 他 e operations 定 义 了 mmap © 操作 ， 则 调用 它 。 
4) 将 这 个 VMA 插 入 进程 的 VMA 和 链表 中 。 

file operations 中 mmap O 六 数 的 第 一 个 参数 耽 是 步骤 1) 找到 的 VMA。 


由 mmap O 系统 调用 映射 的 内 存 可 由 munmap O 解除 映射 ， 这 个 函数 的 原型 如 下 : 


Ine, munmeaptcaddr.-U Adley size: c ben > 


驱动 程序 中 mmap ©) 的 实现 机 制 是 建立 页 表 ， 并 填充 VMA 结 构 体 中 vm_operations_struct 指 针 。VMA 
区 是 vm_area_struct， 用 于 摘 述 一 个 虚拟 内 存 区 域 ，VMA 结 构 体 的 定义 如 代 但 清单 11.4 所 示 。 


代码 清单 11.4 VMA 结 构 体 


下风 


2. J4* The first cache line has the into for VMA- tree walking. */ 

3 

4 unsigned long vm start; |* Our Stare address within vm mm. Ty 
9 Unsigned: long vm end; /* The first byte after our end address 
6 within vm mm. *7 

7 

8 /* linked list of VM areas per task, sorted by address */ 

T SSUIUCU VEL area SUEIUcu "m Mex U,V prev; 

I 

lI Struct. rb node vm ro; 

LZ 

L3 

14 

15- £* Second cache Line starts heres *7 

16 

hy struct mmcscrucb. “wih ann /* The address space we belong to. */ 
l6. *POPTOG. € wn page prot; /* Access permissions of this VMA. */ 
19 unsigned long vm flags; j* Rlagsy see mm.hu. * 
20 
Zl ^d 
22. QOnst sSLruct-vm operaLrons struct wm opseg 
23 
24. #£* Information about. our backing. Store: *7 
25: “Unsigned: long vm pgortr; /* Offset (within vm file) in PAGE SIZE 
26 units, *not* PAGE CACHE SIZE */ 
24 Seruce tile: ~ wm tale; Lt File we-omap- to (can be NULLE» *7 
28 void * vm private data; /* was vm pte (shared mem) */ 
29 
30] 


VMA 绪 构 体 摘 述 的 虚 地 址 介 于 vm_ start 和 vm end 之 间 ， 而 其 vm _ ops 成 员 指 问 这 个 VMA 的 操作 集 。 人 和 针 
对 VMA 的 操作 都 被 包含 在 vm_operations_struct 结 构 体 中 ，vm_operations_struct 结 构 体 的 定义 如 代码 清单 


11.5 所 示 。 


代码 清单 11.5 vm operations struct 结 构 体 


otrot WwmOperatroHne Struc + 

Vold “(Open (SCEUCE, VM area Struct S area)? 

vorid (“OlLOSeE) (StEUCL VM area Struck * aree); 

in "oul (Skruct Vn ares Strucye. “vind; SIEPSUCt wm: taule vmi); 

vord: (*msp pages) (SULUCe Vv dre OLTU “vie SCE CE Vm Peubb FVL)? 


Ov U W NN 


7 /* notification that a previously read-only page is about to become 


8 * writable, if an error is returned it will cause a SIGBUS */ 

9 ane ("page mKkwrive) (Struct vm ares Struct Ym Strucy vm fault aymi)? 
10 
11 /* called by access process vm when get user pages() fails, typically 
LZ * for use by special VMAS that can switch between memory and hardware 
13 mr 
14 ant. (*access) (struct vm area struct *vma, unsigned long addr, 
To vaid *buri, int len; ant write); 
16 
Lr 


整个 vm operations struct 结构 体 的 实体 会 在 fle operations 的 mmap (OO Jo R A 2c E EAE 25 TH DY A vma- 
>vm ops， 而 上 述 open ©) 函数 也 通常 在 mmap() EWH, close O 函数 会 在 用 户 调用 munmap O 的 时 
候 委 调用 到 。 代 人 码 清单 11.6 给 出 了 一 个 vm_operations_struct 的 操作 苑 例 。 


代码 清单 11.6 ”vm operations struct 控 作 范 例 


ie 


Z1 
> if (remap prn vance (via, viia- um Scart, Vm SV pgorft, wmda--vm-end = ma 
4 -»vm start, vma-»vm page prot))/* 建立 页 表 */ 
5 return  -EAGAIN; 
6  vma-»vm ops = &xxx remap vm Oops; 
7 XXX vma open(vma); 
8 return O0; 
2] 
10 
llstatic void xxx vma open (struct vm area struct *vma)/* VMA 打 开 函 数 */ 
l21 
13 
14 printk(KERN NOTICE "xxx VMA open, virt $1x, phys $1xX4n", vma-»vm start, 
E3 Vila-2Vl, DGOOLE << PAGE SHMIET); 
Lo} 
17 
18static void xxx vma close (struct vm area struct *vma)/* VMA 关 闭 函数 */ 
191 
20 
21 printk(KERN NOTICE "xxx VMA close.\n") 
22 
23 
24static struct vm operations struct xxx remap vm ops = {/* VMA 操 作 结构 体 */ 
29. «Open = XXX. vma open; 
20 «Glose = XXX ‘vine. Close, 
21 
28} 


第 3 行 调 用 的 remap pfn range O GIEM ZI, UVMA KJER CVMA PIŠE Me A PAE 15 
用 户 的 请 求 目 己 填 充 的 ) 作为 remap pfn range O 的 参数 ， 轴 射 的 虚拟 地 址 苑 围 是 yma->vm_ start £2 vma- 


>vm_end. 
remap pfn range O 函数 的 原型 如 下 : 


LG remap Pin Tange (Struct yn area Struct *vma;, unsigned long addr, 
unsigned: long pin, unsigned long Size; pgprot t prot); 


其 中 的 addr 参 数 表 示 内 存 映 射 开 始 处 的 虚拟 地 址 。remap pfn range () 函数 为 addr~addrtsize 的 虚拟 地 
址 构造 页 表 。 


pn 是 虚拟 地 址 应 该 映射 到 的 物理 地 址 的 页 帧 号 ， 实 际 上 就 是 物理 地 址 右 移 PAGE SHIFT. Zi 
PAGE SIZE 为 4KB， 则 PAGE SHIFT 为 12， 因 为 PAGE SIZE 等 于 1<<PAGE SHIFT. 


prot 征 新 页 所 要 求 的 体 护 属性 。 


在 驱动 程序 中 ， 我 们 能 使 用 remap pfn range O 觅 射 内 存 中 的 保留 页 、 设 备 IJO、framebuffer、camera 
等 内 存 。 在 remap pfn range O 上 又 可 以 进一步 封闭 出 io remap pfn range () ~ vm iomap memory () 


SAPI. 


#define io remap pfn range remap pfn range 
int, vm omap Memory (Struck. ym area Strucu "uma; Phyo- addr UC Stuart; unssoned jong Len) 


{ 


unsigned Long vm len, pin; pages; 

len r= Start ee PAGE MASK; 

prin = Stara >> PAGE OBHDLETI 

pages. = Len T “PAGE. MASK). c PAGE: SHTET 


prn > ovma-^wvm pgort; 


pages -- vma-»vm pgoff; 
/* Can we fit all of the mapping  */ 
Vr en = Vesey Aen: ce SUISSE Star; 


PEAK, Let ups Wy 
return To remap pin range(vma, vie--vm start, Prine Vm len vma-2vm page prot); 


X318 EE 11.728 E f LCD 3K a) PRY framebuffer 7 ZB Hh E BI) AQ Pe [R] EJ yo ll, TRASH A 


drivers/video/fbdev/core/fbmem.c. 
代码 清单 11.7 LCDJUIXzJHU framebufferii]mmap 


Pe Cenc: Ini 
ZLDomwdpistrcucb fole SELLS, Sr UCC Yi area Struck wma) 


ee 
ee 

6 unsigned long mmio pgoff; 

7 unsigned long start; 

8 


Ho ems 
9 
l0» EE ACPO) 
du return —~ENODEV; 


l2 Jo. Ant Oa EDOD; 

L3 E (FTD) 

14 return =SENODEV? 

lo- «mutex: lock (¢into=>mm Lock); 
l6. GB Qfbesrb mudp) 4 


L int res; 

18 pes e CSbe«rbmmapiainfo, vma)s 
L9 mutex unlock(&info-»mm lock); 
20 return res; 

21 3 

22 

Lo. ss 


24 * Ugh. This can be either the frame buffer mapping, or 
2 ^ut POOLE points past ct, The mmrto mapping; 


26 * / 
Zo ‘Stari: = uos P3 Seg pla ru, 
20 Jen e Anos tx ssmem:. Len 


Zo MMO: POLL = PAGE ALION (Start SEAGE MASK): om ben) 2 PAGE Snel; 
3D. df Cymsg- vm POOLE -= mmio pgobi) 4 


341. IT QXIDLo-^var.goocsel flago) d 

ou mutex unlock(&info-»mm lock); 
9 return -EINVAL; 

34 } 

36 vmacecwm pgolt == mmro- pgorc; 

37 Stare = INLOS E O o aE 

o Jen. = cnfo-crrixommco len; 

39 4} 

40 mutex unlock(&info-»mm lock); 

41 

42. wrta-2vmnm page Prot = vm get page prot(vma-»vm £lags); 


Ao- JD POP OECTA Ler Vay. Stare) 7 


44 
45 return vm iomap memory(vma, start, len); 
46} 


通 币 ，LIJO 内 存 航 瞻 射 时 需要 是 nocache 的 ， 这 时 候 ， 我 们 应 该 对 vma->vm page prot 设 置 nocache 标 志 之 
Jg BERE, Ud SISTI. 


代码 清单 11.8 nocache Y XX PEZ 28 [8] RACES] 80] HJ P? 25 [] 


IStatic Int xxx nocache mmap(struce Tile *"rilp, Struct. vm arcea stcuct SI 


Z1 

3 vma-»vm page prot = pgprot noncached(vma-»vm page prot);/* 赋 nocache 标 志 */ 
4 cvima-»vm pgorr = ((u252)map Start >> PAGE SHIFT); 

5 /* 映射 */ 

6 if (remap pfn range(vma, vma-»vm start, vma-»vm pgoff, vma-»vm end - vma 
q um Start. viae vm page prot) 

8 return  -EAGAIN; 

9 return 0; 
1:0) 


上 述 代 码 第 3 行 的 pgprot noncached O 是 一 个 宏 ， 它 局 度 依赖 于 CPU 的 体系 结构 ，ARM 的 


pgprot noncached () 定义 如 下 : 


#define pgprot noncached(prot) \ 
|  pgprot modify(prot, L PTE MT MASK, L PTE MT UNCACHED) 


A — A EH 5pgprot noncached O 稍微 少 一 些 限 制 的 宏 是 pgprot writecombine O ， 它 的 定义 如 下 : 


#define pgprot writecombine(prot) \ 
| pgprot modify(prot, L PTE MT MASK, L PTE MT BUFFERABLE) 


pgprot noncached O 实际 禁止 了 相关 页 的 Cache 和 写 绥 冲 (Wirite Buffer) , pgprot writecombine () 
则 没有 禁止 写 缓 冲 。ARM 的 写 绥 冲 颖 是 一 个 非常 小 的 FIFO 和 存储 上 器， 位 于 人 处理 右 核 与 主 存 之 则 ， 其 目的 在 
于 将 处 理 强 核 和 Cache 从 较 慢 的 主 存 写 操作 中 解 及 出 来 。 写 缓冲 区 与 Cache 在 存储 层次 上 处 于 同一 层次 ， 但 
EU RHTEHT SEF. 


2.fault ©) KAŽ 


除了 remap pfn range ©) 以 外 ， 在 驱动 程序 中 实现 VMA 的 fault〈) 函数 通 沿 可 以 为 设备 提供 更 加 灵活 
的 内 存 上 映射 途径 。 当 访问 的 页 不 在 内 存 里 ， 即 有 发生 缺 页 内 贡 时 ，fault O 会 航 内 核 目 动 调用 ， 而 fault ©) 
的 具体 行为 可 以 目 定 义 。 这 和 古 因 为 当 有 发 生 缺 页 民间 时 ， 系 统 会 经过 如 下 处 理 过 程 。 


1) 找到 缺 页 的 虚拟 地 址 所 在 的 VMA。 
2) 如 和 汞 必要， 分配 中 间 页 目录 表 和 页 表 。 


3) 如 打 页 表 项 对 应 的 物理 页 面 不 存在 ， 则 调用 这 个 VMA 有 的 fault〈() 方法 ， 它 返回 物理 页 面 的 页 插 达 


ibl 


4) 将 物理 页 面 的 地 址 填充 到 页 表 中 。 


fault © 了 疯 数 在 Linux 的 早期 版 本 中 命名 为 nopage O ， 后 来 变更 为 了 fault O 。 代 码 清 时 11.9 给 出 了 
一 个 设备 驱动 中 使 用 fault() 的 典型 范例 。 


代码 清单 11.9” fault OO. 函数 使 用 范例 


Lotadtric Int xxx FfaulLtistrucL Vm ates SUr ymar SCPUCL Vil taule *vmi) 


3. unsigned long paddr; 
unsigned long pfn; 


9 poor’ © Inder = ymi- -DJOL 

6 Struct vma data *vdata = vma->vm private data; 
7 

8 

J 
10 pin = paddr >> PAGE SHIFT; 
11 
12 vm ingert prinivma, (unsigned long)vymi=>virtual address; pin); 
13 
14 return VM FAULT NOPAGE; 
15} 


x 
—————— 因为 ， 对 于 串口 等 面向 流 的 设 
备 而 言 ， 实 现 这 种 映射 毫 无 意义 。 而 对 于 显示 、 视 频 等 设备 ， 建 立 映射 可 减少 用 户 空间 和 内 核 空间 之 间 的 
内 存 复制 。 


11.5 IO 内存 静 态 映 射 


在 将 Linux 移 植 到 目标 电路 板 的 过 程 中 ， 有 得 会 建立 外 设 IO 内 存 物 理 地 址 到 虚拟 地 址 的 静态 映射 ， 
个 映射 通过 在 与 电路 板 对 应 的 map _desc 结 构 体 数组 中 添加 新 的 成 员 来 完成 ，map desc 结构 体 的 定义 如 代码 
清单 11.10 所 示 。 


代码 清单 11.10 map desc 结 构 体 


LSUCrfuct- map deso 1 


2 unsigned long virtual; /* 虚拟 地 址 */ 

3 unsigned long pfn ; /* | phys to pf£n(phy addr) */ 
4 unsigned long length; Te e WU 

5 unsigned int type; 7* Wu wj 

6]; 


例如 ， 在 内 核 arch/arm/mach-ixp2000/ixdp2x01.c 文 件 对 应 的 Intel IXDP2401 和 IXDP2801 平 台 上 包含 一 个 
CPLD， 人 起 文件 中 残 进行 了 CPLD 物理 地 址 到 虚拟 地 址 的 衣 态 映射 ， 如 代码 请 单 11.11 所 示 。 


代码 请 单 11.11 在 电路 板 文 件 中 增加 物理 地 址 到 谍 拟 地 址 的 静态 映射 


Lstatic Struct map desc Mc cei xo desc TNCoata = { 
2 Virtual = JADPZX0L VIRI PDD BASE, 

3 En = phys to pfn(IXDP2X01 PHYS CPLD BASE), 
4 .length 一 IXDP2X01 CPLD REGION SIE; 

B .type - MT DEVICE 

6]; 

7 

ostati Void  Anic axdpzx0l map zo(vord) 

21 
ds ixp2000 map io(); 
11 loOtable 1inzt(e2x0p2x01 10 desoy 1); 


代码 清单 11.11 中 的 第 11 行 iotable init O 是 最 终 建立 页 映射 的 函数 ， 它 通过 MACHINE_START、 
MACHINE END 宏 赋值 给 电路 板 的 map io O 函数 。 将 Linux 操 作 系 统 移植 到 特定 平台 上 ， 
MACHINE START (或 者 DT MACHINE START) 、MACHINE END 宏 之 间 的 定义 针对 特定 电路 板 而 设 
计 ， 其 中 的 map_io() 成 员 函 数 完成 WO 内 存 的 静态 映射 。 


在 一 个 已 经 移植 好 操作 系统 的 内 核 中 ， 驱 动工 程 师 可 以 对 非常 规 内 存 区 域 的 WO 内 存 〔 外 设 控制 器 寄 
存 器 、MCU 内 部 集成 的 外 设 控制 器 寄存 器 等 ) 依 照 电路 板 的 资源 使 用 情况 添加 到 map_desc 数 组 中 ， 但 是 
有 前 该 方法 已 经 不 值得 推荐 ， 


11.6 DMA 


DMAJÉ —fIZGA2ACPUR] Z2 5 3i n] ALE Sh 5 AR Ef VA FFB IEE T MT SU Pe aT I TELS]. fERIDMA 
FY DA A SECPUJA SE by HOS d Pe LEE HR BG EBORE. Mat AK ERRANAK, DM AGES Fs I5 f Pp f 
系 结构 ， 特 列 是 外 设 的 总 线 技 术 密 切 相关 。 


DMA 方 式 的 数据 传输 由 DMA 控 制 硕 (DMAC) 控制 ， 在 传输 期 间 ，CPU 可 以 并 友 地 执行 其 他 任务 。 
当 DMA 结 束 后 ，DMAC 通 过 中 断 通 知 CPU 数 据 传 输 已 经 结 束 ， 然 后 由 CPU 执行 相应 的 中 断 服 务 程序 进行 
后 处 理 。 


11.6.1 _DMA 与 Cache 一 致 性 


Cache 和 DMA 本 身 似乎 是 两 个 蝇 不 相关 的 事物 。Cache 被 用 作 CPU 针 对 内 存 的 缓存 ， 利 用 程序 的 空间 
局 部 性 和 时 间 局 部 性 原理 ， 达 到 较 融 的 命中 紊 ， 从 而 避 倪 CPU 每 次 部 必 须要 与 相对 慢 速 的 内 存 交 互 数据 来 
提 疝 数 据 的 访问 速 座 。DMA 可 以 作为 内 存 与 外 设 之 则 传输 数据 的 方式 ， 在 这 种 传输 方式 之 下 ， 数 据 并 不 


m 
需要 经 过 CPU 中 转 。 


假设 DMA 针 对 内 存 的 目的 地 址 与 Cache 绥 存 的 对 象 没 有 重 登 区域“ 如 网 11.12 所 示 ) ，DMA 和 Cache 之 
间 将 相安 无 事 。 但 是 ， 如 果 DMA 的 目的 地 址 与 Cache 所 绥 存 的 内 存 地 址 访问 有 午 且 (如 图 11.13 所 示 )〉 ， 经 
过 DMA 操 作 ， 与 Cache 绥 存 对 应 的 内 存 中 的 数据 已 经 被 修改 ， 而 CPU 本 身 并 不 知道 ， 它 仍然 认为 Cache 中 
的 数据 就 是 内 存 中 的 数据 ， 那 在 以 后 访问 Cache 映 射 的 内 存 时 ， 它 仍然 使 用 陈旧 的 Cache 数 据 。 这 样 就 会 发 
后 Cache 与 内 存 之 间 数 据 “ 不 一 致 性 ”的 错误 。 





图 11.12 DMA 目 的 地 址 与 Cache 对 象 没有 重 赫 





图 11.13” DMA 日 的 地 址 与 Cache 对 象 有 重 装 


所 谓 Cache 数 据 与 内 存 数据 的 不 一 致 性 ， 古 指 在 床 用 Cache 的 系统 中 ， 同 梓 一 个 数据 可 能 既 存 在 于 
Cache 中 ， 也 存在 于 主 存 中 ，Cache 与 主 存 中 的 数据 一 样 则 具有 一 致 人 性， 数据 在 不 一 样 则 共有 不 一 致 性 。 


南 要 特别 注意 的 是 ，Cache 与 内 存 的 一 致 性 问题 经 曲 被 急 学 者 遗 筷 。 在 友 生 Cache 与 内 存 不 一 致 性 钳 误 
后 ， 驱 动 将 无 法 正常 运行 。 如 果 没 有 相关 的 背景 知识 ， 工 程 师 几乎 无 法 定位 错误 的 原因 ， 因 为 这 时 所 有 的 
程序 看 起 来 都 是 完全 正确 的 。Cache 的 不 一 致 性 问题 并 不 是 只 肥 生 在 DMA 的 情况 下 ， 实 际 上 ， 筷 还 存在 于 
Cache 使 能 和 关闭 的 时 刻 。 例 如 ， 对 于 市 MMU 功 能 的 ARM 处 理 絮 ， 在 开局 MMU 之 前 ， 和 需要 先 置 Cache 无 
效 ， 对 于 TLB， 也 是 如 此 ， 代 码 清单 11.12 给 出 的 这 段 汇 编 可 用 来 完成 此 任务 。 


代码 清单 11.12” 置 ARM 的 Cache 无 效 


1/* cachez% */ 
2"mov r0. FU" 
CA ier a ols, Or 20, <i, Ci, Qu /* 使 数据 和 指令 cache 无 效 */ 


aU men Dio, Up 0. GU Gl, 42." /* 放空 写 缓冲 */ 
5 mca plos OU, WU. Coy, Gl, Qui" /* 使 TLB 无 效 */ 





11.6.2 ”Linux 下 的 DMA 编 程 


首先 DMA 本 里 不 属于 一 种 等 同 于 字符 设备 、 块 设备 和 网 络 设 备 的 外 设 ， 它 只 是 一 种 外 设 与 内 存 交 互 
数据 的 方式 。 因 此 ， 本 节 的 标题 不 是“Linux 下 的 DMA 驱 动 * 而 是 “Linux 下 有 的 DMA 编 程 ”。 


内 存 中 用 于 与 外 设 交 互 数 据 的 一 块 区 域 称 为 DMA 绥 冲 区 ， 在 设备 个 文 持 scatter/gather IUR R, f 
称 SG) 操作 的 情况 下 ，DMA 绥 冲 区 在 物理 上 必须 是 连续 的 。 


1.DMA 区 域 


对 于 x86 系 统 的 ISA 设 备 而 吾 ， 其 DMA 操 作 只 能 在 16MB 以 下 的 内 存 中 进行 ， 因此， 在 使 用 
kmalloc () ~ get free pages OO 及 其 类 似 函 数 申 请 DMA 绥 冲 区 时 应 使 用 GFP_ DMA 标志 ， 这 样 能 你 证 


获得 的 内 存 位 于 DMA 区 域 中 ， 并 具备 DMA 能 


在 内 核 中 定义 了 get free pages O 针对 DMA 的 “快捷 方式 ” get dma pages © ， 它 在 申请 标志 


添加 了 GFP DMA, Wi FITR: 


#define | get dma pages(gfp mask, order) \ 
. et free pages((gtp mask) .| GFP. DMA; (Order) 


如 果 不 想 使 用 log2size〈 即 order〉 为 参数 申请 DMA 内 存 ， 则 可 以 使 用 另 一 个 函数 
dma mem alloc C) ， 其 产 代 人 码 如 代码 清单 11.13 所 示 。 


代码 清单 11.13 dma mem alloc () 函数 


lstatic unsigned long dma mem alloc(int size) 

an 

3 Ame Order = get -ordéer (size); /* 大 小 -> 指数 */ 
4 return get dma pages(GFP KERNEL, order); 

2j 


FRE BU KA SU ail EB. DMASERTE n] ELE SERE Fe DX ETT» ELEC DMA DX Jt ECBZ 
15 mi S E LAL AF o 


2. 虚 拟 地 址 、 物 理 地 址 和 总 线 地 址 


基于 DMA 的 硬件 使 用 的 是 总 线 地 址 而 不 是 物理 地 址 ， 总 线 地 址 是 从 设备 角度 上 看 到 的 内 存 地 址 ， 物 
理 地 址 则 是 从 CPU MMU 控 制 器 外 围 角 度 上 看 到 的 内 存 地 址 (从 CPU 核 角度 看 到 的 是 虚拟 地 址 ) 。 虽 然 在 
PC 上 ， 对 于 ISA 和 PCI 而 言 ， 总 线 地 址 即 为 物理 地 址 ， 但 并 不 是 每 个 平台 都 是 如 此 。 因 为 有 时 候 接 口 总 线 
通过 桥接 电路 连接 ， 桥 接 电路 会 将 MO 地 址 映射 为 不 同 的 物理 地 址 。 例 如 ， 在 PReP (PowerPC Reference 
Platform) 系统 中 ， 物 理 地 址 0 在 设备 端 看 起 来 是 0x80000000， 而 0 通常 又 被 映射 为 虚拟 地 址 0xC0000000， 


所 以 同一 地 址 就 具备 了 三 重 身 份 : 物理 地 址 0、 总 线 地 址 0x80000000 及 虚拟 地 址 0xC0000000。 还 有 一 些 系 
统 提 供 了 页 面 映 射 机 制 ， 它 能 将 任意 的 页 面 映 射 为 连续 的 外 设 总 线 地 址 。 内 核 提 供 了 如 下 函数 以 进行 简单 
的 虚拟 地 址 /总 线 地 址 转换 : 


unsigned long virt To bus(volarile void *address); 
void “bus Lo Virt (unsigned Long address); 


在 使 用 IOMMU 或 反弹 绥 冲 区 的 情况 下 ， 上 述 函 数 一 般 不 会 正常 工作 。 而 且 ， 这 两 个 函数 并 不 建议 使 
用 。 如 图 11.14 所 示 ，IOMMU 的 工作 原理 与 CPU 内 的 MMU 非 党 类似 ， 不 过 它 针 对 的 古 外 设 忌 线 地 址 和 内 
存 地 址 之 间 的 转化 。 由 于 IOMMU 可 以 使 得 外 设 DMA 引 擎 看 到 “虚拟 地 址 ”>， 因 此 在 使 用 IOMMU 的 情况 
下 ， 在 修改 映射 寄存 器 后 ， 可 以 使 得 SG 中 分 段 的 缓冲 区 地 址 对 外 设 变 得 连续 。 









内 存 物理 地 址 | 总 线 地 址 


图 11.14 MMUSIOMMU 
3.DMA 地 址 掩 人 码 


设备 并 不 一 定 能 在 所 有 有 的 内 存 地 址 上 执行 DMA 操 作 ， 在 这 种 情况 下 应 访 明 过 下 列 函 数 执行 DMA 地 址 
NE 


int dma set mask(struct device *dev, u64 mask); 


例如 ， 对 于 只 能 在 24 位 地 址 上 执行 DMA 操 作 的 设备 而 言 ， 束 应 该 调用 dma set mask (dev, 
Oxfffif) . 


其 实 该 API 本 质 上 就是 修改 device 结 构 体 中 的 dma mask 成 员 ， 如 ARM 平 侣 的 定义 为 : 


int arm dma set mask(struct device *dev, u64 dma mask) 


{ 


uf (.déev->dma_ mask || ma supported (déev;,. dma mask). 
return =LIO}; 
*dev-»dma mask = dma mask; 


return 0; 


在 device 结 构 体 中 ， 除 了 有 dma mask 以 外 ， 还 有 一 个 coherent dma mask 成 员 。dma mask 是 设备 DMA 
可 以 寻 址 的 范围 ， 而 coherent dma mask 作 用 于 申请 一 致 性 的 DMA 绥 冲 区 。 


4. 一 致 性 DMA 绥 冲 区 


DMA 了 映射 包括 两 个 方面 的 工作 : 分 配 一 厂 DMA 绥 冲 区 ; 为 这 厂 绥 冲 区 产生 设备 可 访问 的 地 址 。 同 


上 时，DMA 了 映射 也 必须 考虑 Cache 一 人 致 性 问题 。 内 核 中 提供 了 如 下 函数 以 分 配 一 个 DMA 一 人 致 性 的 内 存 区 
域 . 


vord * dima alloc coherentístruct device “dev, 


S176 b grece. dma <add. ct. hand le, 
gfp t gfp); 


上 述 函 数 的 返回 值 为 申请 到 的 DMA 绥 冲 区 的 虚拟 地 址 ， 此 外 ， 该 函数 还 通过 参数 handle 返 回 DMA 绥 
冲 区 的 总 线 地 址 。handle 的 类 型 为 dma addr t， 代 表 的 是 总 线 地 址 。 


dma alloc coherent O 申请 一 片 DMA 缓 神 区 ， 以 进行 地 址 映射 并 保证 访 缓 神 区 的 Cache 一 致 性 。 与 
dma alloc coherent O 对 应 的 释放 图 数 为 : 


El 


SIze t Iize;, WONG “epu Addr; 
ama addr t handle) 7 


E eR Fp id P BSF CWritecombining) 的 DMA 绥 冲 区 : 


VOLO. * dma ALLOC wrstecomblDne(sSLrucccdewrce. “dev, 


Size tSizey dma addr qt 
‘handle, Gp t GIP; 


与 dma alloc writecombine (O 对 应 的 释放 函数 dma free writecombine O 实际 上 吏 是 
dma free coherent () ， 它 定义 为 : 


#define dma free writecombine(dev,size,cpu addr,handle) \ 
dma prese COnerent (devysizey,ceu. addr; hance) 


此 外 ，Linux 内 核 还 提供 了 PCI 设 备 申请 DMA 绥 剖 区 的 函数 pci alloc consistent () ， 其 原型 为 : 


ee ep ey "ev S126 TL. "S126 ‘dna S00r Tt om S000) 


对 应 的 释放 函数 为 pci free consistent O ， 其 原型 为 : 


VOLO DCL LTC CONSI SCUO qos uev so 


oque dry VOU! “Cou addr; 
dma addr t.dma addr); 


这 里 我 们 要 强调 的 是 ，dma alloc xxx O 图 数 虽然 是 以 dma alloc FAW, (ALLA S I XIE 


在 DMA 区 域 里 面 。 以 32 位 ARM 处 理 需 为 例 ， 当 coherent dma mask 小 于 0xfftpnjy， 才 会 设置 GFP DMA 标 
记 ， 并 从 DMA 区 域 去 申请 内 存 。 


在 我 们 使 用 ARM 竺 有 艇 入 式 Linux 系 统 的 时 候 ， 一 个 涉 疼 的 问题 是 GPU、Camera、HDMI 等 都 需要 预 留 


大 量 连 续 内 和 存 ， 这 部 分 内 存 平时 不 用 ， 但 是 一 般 有 的 做 法 又 必须 先 预 留 厦 。 目 前 ，Marek Szyprowski 和 


Michal Nazarewicz 实 现 了 一 套 全 新 的 CMA， (Contiguous Memory Allocator) 。 通 过 这 和 套 机 制 ， 我 们 可 以 做 


到 不 预 留 闪存， 这 些 内 存 平 时 是 可 用 的 ， 只 有 当 需 要 的 时 候 才 彼 分 配给 Camera、HDMI 等 设备 。 


CMA 对 上 呈现 的 接口 是 标准 的 DMA， 也 是 一 任性 缓冲 区 API。 关 于 CMA 的 进一步 介绍 ， 可 以 参 
考 http://Ilwn.net/Articles/486301/ 的 文档 《A deep dive into CMA) . 


5. 流 式 DMA 映 射 


并 不 是 所 有 的 DMA 缓 冲 区 都 是 驱动 申请 的 ， 如 果 是 驱动 申请 的 ， 用 一 致 性 DMA 缓 冲 区 自然 最 方便 ， 
这 直接 考虑 了 Cache 一 致 性 问题 。 但 是 ， 在 许多 情况 下 ， 缓 冲 区 来 自 内 核 的 较 上 层 〈 如 网 卡 驱动 中 的 网 络 
报 文 、 块 设备 驱动 中 要 写 入 设备 的 数据 等 ) ， 上 层 很 可 能 用 普通 的 kmalloc O . — get free pages O 等 
方法 申请 ， 这 时 候 就 要 使 用 流 式 DMA 了 映射 。 流 式 DMA 缓 冲 区 使 用 的 一 般 步骤 如 下 。 


1) 进行 流 式 DMA 了 映射 。 

2) 执行 DMA 操 作 。 

3) 进行 流 式 DMA 去 映射 。 

流 式 DMA 映 射 操作 在 本 质 上 大 多 就 是 进行 Cache 的 使 无 效 或 清除 操作 ， 以 解决 Cache 一 致 性 问题 。 


相对 于 一 致 性 DMA 了 映射 而 言 ， 流 式 DMA 了 映射 的 接口 较为 复杂 。 对 于 单个 已 经 分 配 的 缓冲 区 而 言 ， 使 
用 dma map single Ò 可 实现 流 式 DMA 了 上 映射 ， 充 函数 原型 为 : 


dma addr’ t dma. map single (struct device “dev; void “butter, cize 1 S1L26; 
enum dma data direction direction); 


jj ARA RO, IRAE, qj, JRIEINULL. 9844-2 38073DMARJZ; m], PRERA GH 
DMA TO DEVICE. DMA FROM DEVICE. DMA BIDIRECTIONAL 和 DMA NONE. 


dma map single O ØR rÉZX7Jdma unmap single © ， 原 型 是 : 


void dma unmap Single (struct ‘device “dev, dma addr © dma addr, Gize t size, 
enum: dma aara direction GLrectron); 


第 情况 下 ， 设 备 驱 动 个 应 该 访问 unmap 的 流 式 DMA 绥 冲 区 ， 如 果 一 么 做 ， 可 先 使 用 如 下 函数 
获得 DMA 绥 冲 区 的 拥有 权 : 


void dma Sync single. for cpu(struct device *dev, dma handle © bus addr; 
Size L Size, enum dma data. direction direcrion); 


EIA HEDMARK J DCRR AT A NORLA, XXn ug PEE 


VOLO Oma Sync single tor deviceistruct device "dev, dma handle T bus addr, 
gairo © Size, enum dma Gata Girecuiom direc ion)? 


如 果 设 备 要 求 较 大 的 DMA 缓 冲 区 ， 在 其 支持 SG 模式 的 情况 下 ， 申 请 多 个 相对 较 小 的 不 连续 的 DMA 组 
冲 区 通 间 是 防止 申请 太 大 的 连续 物理 空间 的 方法 。 在 Linux 内 核 中 ， 使 用 如 下 函数 映射 SG: 


Pie. dma Map. Sgro Cr UCC device. “dev, Strucu SCALE las: Fogy TNE nens, 
enum dma data C1recr Onl Lrectron).y 


nents 是 散 列 表 Cscatterlist) AMA, VE PAAR IEE XEDMAZX HX Nae, Al Ae) Fnents. Xf 
于 scatterlist 中 的 每 个 项 目 ，dma map sg O 为 设备 产生 恰当 的 电线 地 址 ， 它 会 合并 物理 上 临近 的 内 存 区 
域 。 


scatterlist 结 构 体 的 定义 如 代码 清单 11.14 所 示 ， 它 包含 了 与 scatterlist 对 应 的 页 结构 体 指针 、 绥 冲 区 在 页 
中 的 偏 移 Coffset) 、 绥 冲 区 长 度 Cength) 以 及 总 线 地 址 (dma address) . 


代码 清单 11.14 scatterlist 结 构 体 


lstruct scatterlist 4 
24ifdef CONFIG DEBUG SG 


3 unsigned long Sg Magic; 
A#tendif 

9 unsigned long page link; 

6 unsigned int offset; 

7 unsigned int length; 

8 dma addr t dma address; 
9#ifdef CONFIG NEED SG DMA LENGTH 
LO unsigned int dma length; 
llfendif 
12}; 


执行 dma map sg ©) 后 ， 通 过 sg dma address () 可 返回 scatterlist 对 应 缓冲 区 的 总 线 地 址 ， 
sg dma len O 可 返回 scatterlist 对 应 缓冲 区 的 长 度 ， 这 两 个 函数 的 原型 为 : 


dme addr t so dma. dddress(struct gcoatterlist Tog); 
UNS LOMO. Ine Sg dua lenteLrupgt Scat er iSt “9; 


在 DMA 传 输 结 束 后 ， 可 通过 dma map sg ©) 的 反 函 数 dma unmap sg ©) 除去 DMA 了 映射 : 


void xuma-unmmap eg(sSbrucc device "dev, Okr rU GOALE LIS LESE; 
Int Tentes enum dma data direction drrectlons); 


SG 映射 属于 流 式 DMA 了 映射 ， 与 单一 缓冲 区 情况 下 的 流 式 DMA 有 映射 类 似 ， 如 果 设 备 驱 动 一 定 要 访问 映 
射 情 况 下 的 SG 绥 种 区 ， 应 该 先 调用 如 下 郴 数 : 


void CMa Gyn Sg [Or Cou (Sstruce device: *dev,; SOEITUCL SCOLLSEILLESUC 799; 
Lnt ments. enum dma: dara dlrectron direction); 


访问 完 后 ， 通 过 下 列 函数 将 所 有 权 返 回 给 设备 : 


VOOr Ma. SYNC SO tor ev Ce Cr UC device “Gey, LIUCL Scatter list. “sq; 
Lie Mens, “Rul dma ida ve. cdrrectzronm Greet Lon)? 


在 Linux 系 统 中 可 以 用 一 个 相对 简单 的 方法 预先 分 配 缓冲 区 ， 那 融 是 同步 “mem= ”参数 预 留 内 存 。 例 
如 ， 对 于 内 存 为 64MB 的 系统 ， 通 过 给 其 传递 mem=62MB 命 令 行 参数 可 以 使 得 顶部 的 2MB 内 存 被 预 留 出 来 
作为 IO 闪存 使 用 ， 这 2MB 内 存 可 以 被 辣 态 映射 ， 也 可 以 被 执行 ioremap © 。 


6.dmaengine 标 准 API 


Linux 内 核 目 前 推荐 使 用 dmaengine 的 驱动 架构 来 编 王 DMA 控制 占 的 驱动 ， 同 时 外 设 的 驱动 使 用 标准 的 
dmaengine API 进 行 DMA 的 准备 、 友 起 和 完成 时 的 回调 工作 。 


和 中 上 断 一 样 ， 在 使 用 DMA 之 前 ， 设 备 张 动 程序 需 首 先 同 dmaengine 系 统 申 请 DMA 通 道 ， 申 请 DMA 退 
道 的 函数 如 下 : 


SO dma chan Yoana request slave Channel (Struct device “dev, Const char *name) 7 
STEUCL GMa chan. ™ om request Channel (const dma Cap mask t. "mask; 
dma Tilter Tn iny Void Win peram); 


(EH SEDMAGHIE a, MIZAH AU F ER RE 


void dina release Channel (Struct dma Chan. chan)? 


Jn. AORTA AST AHR IK DMAPETE CN 
dmaengine prep slave single O 准备 好 一 些 DMA 摘 述 符 ， 并 项 宛 其 完成 回调 为 
xxx dma fini callback () ， 之 后 通过 dmaengine submit © 把 这 个 摘 述 符 插 入 队列 ， 再 通过 
dma async issue pending O 发 起 这 次 DMA 动 作 。DMA 完 成 后 ，xxx dma fini callback © 函数 会 被 
dmaengine 驱 动 自动 调用 。 


代码 清单 11.1$ ”利用 dmaengine API 友 起 一 次 DMA 操 作 


lStatic voxd xxx dma fini callbacki(void. *data) 
24 


3 struct ‘completion *dma conplete. = data; 
4 

5 complete (dma compiete); 

6 } 


4 
Sissue. xxx dma (ses) 


10 rx desc = dmaengine prep slave single(xxx-»^rx Chan, 
11 Xxxeccgst Start, t- len, DMA DEV TO MEM, 

12 DMA PREP INTERRUPT | DMA CTRL ACK); 

13 Ex desc- >callback = xxx dma fini callback; 

14 rx desc-»callback param = &xxx->rx done; 

1:5 

16 dmaengrzne Submit (rx desc); 

Ly dma async issue pending(xxx-»rx chan); 


11.7 总 结 


外 设 可 处 于 CPU 的 内 存 空间 和 LO 空间 ， 除 x86 外 ， 风 入 式 处 理 器 一 般 只 存在 内 存 空间 。 在 Linux 系 统 
中 ， 为 IO 内 存 和 IO 端口 的 访问 提高 了 一 套 统一 的 方法 ， 访 问 流程 一 般 为 “申请 资源 一 映射 一 访问 一 去 映 
射 一 释放 资源 ”。 

对 于 有 MMU 的 处 理 器 而 言 ，Linux 系 统 的 内 部 布局 比较 复杂 ， 可 直接 映射 的 物理 内 存 称 为 第 规 内 存 ， 


超出 部 分 为 高 端 内 存 。kmalloc () 和 get free pages O 申请 的 内 存在 物理 上 连续 ， 而 vmalloc () 申请 
的 内 存在 物理 上 不 连续 。 


DMA 控 a 作 可 能 导 人 至 Cache 的 不 一 至 性 问题 ， 因 此 ， 对 于 DMA 绥 冲 ， 应 该 使 用 dma alloc coherent O 等 
方法 申请 。 在 DMA 操 作 中 涉及 总 线 地 址 、 物 理 地 址 和 虚拟 地 址 等 概念 ， 区 分 这 3 类 地 址 非常 重要 。 


第 12 章 Linux te ee JXzJJ P] p ey FU, ZH 
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在 前 面 几 章 我 们 看 到 了 globalmem、globalfifo 这 样 交 型 的 答 单 的 字符 设备 驱动 ， 但 是 ， 纵 观 Linux 内 核 
的 源 代 但 ， 谍 者 几乎 找 不 到 有 如 此 人 徐 单 形 云 的 张 动 。 


在 实际 的 Linux 张 动 中 ，Linux 内 核 尽 量 做 得 更 多 ， 以 便于 展 层 的 张 动 可 以 做 得 更 少 。 而 且 ， 也 特别 踢 
调 了 驱动 的 器 平台 特性 。 因 此 ，Linux 内 核 势 必 会 为 个 同 的 驱动 子 系统 设计 不同 的 框 淋 。 
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12.2 以 platform 为 例 ， 全 面 介绍 了 platform 设 备 和 驱动 ， 以 及 platform 的 意义 。 从 而 讲 明 了 Linux 内 核 中 
驱动 和 设备 分 离 的 优点 。 

12.3 广 以 RTC、Framebuffer、input、tty、 疡 傈 设备 驱 动 守 为 例 ， 讲 解 了 驱动 分 层 、 核 心 层 与 的 层 交 互 
HJ ARATE e 


12.4 贡 分 机 了 Linux 设 备 驱 动 中 主机 与 外 设 张 动 分 离 的 设计 思 力 ， 并 以 SPI 主 机 和 外 设 张 动 为 例 进 行 了 
ve UE « 


12.1  _ Linux 驱动 的 软件 架构 


Linux 不 是 为 了 未 单一 电路 板 而 谈 计 的 操作 系统 ， 它 可 以 文 持 约 30 种 体系 结构 下 一 定数 量 的 使 件 ， 
此 ， 它 的 驱动 染 构 很 显然 不 能 像 RTOS 下 或 者 无 控 作 系统 下 那么 小 儿科 的 做 法 。 


Linux 设 备 张 动 非常 重视 软件 的 可 重用 和 路 平台 能 力 。 辟 如， 如 果 我 们 与 下 一 个 DM9000 网 卡 的 驱动 ， 
Linux 的 想法 是 这 个 张 动 应 该 最 好 一 行 都 不 要 改 束 可 以 在 任何 一 个 平台 上 跑 起 来 。 为 了 做 到 这 一 点 《看 似 
很 难 ， 因 为 每 个 板子 连接 DM9000 的 基地 址 ， 中 新 扎 什 么 的 都 可 能 不 一 样 ) ， 驱 动 中 势必 会 有 关 似 这 样 的 
代码 : 

#ifdef BOARD XXX 

#define DM9000 BASE 0x10000 
#define DM9000 IRQ 8 

#elif defined(BOARD YYY) 
#define DM9000 BASE 0x20000 
#define DM9000 IRQ 7 

#elif defined(BOARD 222) 
#define DM9000 BASE 0x30000 


#define DM9000 IRQ 9. 
tendir 


上 述 代码 主要 有 如 下 问题 : 


L) 此 段 代 码 看 起 来 面目 可 展 ， 如 果 有 100 个 板子 ， 束 要 ipelse 100 识 ， 到 了 第 101 个 板子 ， 又 得 重新 加 
ipelse。 代 但 进行 看 徐 单 的 “复制 一 粘贴 ”>， “复制 一 粘贴 ?去 的 简单 重复 通常 意味 独 代 但 编写 者 的 水 平 很 
Fae 


2) 非常 难 做 到 一 个 驱动 文 持 多 个 设备 ， 如 果 某 个 电路 板 上 有 两 个 DM9000 网 卡 ， 则 DM9000_BASE 这 
个 宏 就 不 够 用 了 ， 此 时 势必 要 定义 出 来 DM9000 BASE 1, DM9000 BASE 2. DM9000 IRQ 1. 
DM9000 IRQ 2 类 的 宏 ; 定义 了 DM9000 BASE 1、DM9000 BASE 2 后 ， 如 果 叉 有 第 3 个 DM9000 网 卡 加 到 
板子 上 ， 前 面 的 代码 就 又 不 适用 了 。 


3) 依赖 于 make menuconfigw EI] IM H 来 编译 内 核 ， 因 此 ， 在 不 同 的 便 件 平台 下 要 依赖 于 所 选择 的 
BOARD XXX. BOARD YYY 选 项 来 决定 代码 逻辑 。 这 不 符合 ARM Linux 3.x 一 个 映像 适用 于 多 个 人 硬件 的 
目标 。 实 际 上 ， 我 们 可 能 同时 选择 了 BOARD XXX. BOARD YYY、BOARD ZZZ. 


我 们 按照 上 面 的 方法 编写 代码 的 时 候 ， 相 信 自 己 编 着 编 着 也 会 党 得 奇怪 ， 闻 到 了 代码 里 不 好 的 味道 。 
这 个 时 候 ， 请 集 下 你 飞 奔 的 脚步 ， 等 一 等 你 的 灵魂 。 我 们 有 没有 办 法 把 设备 病 的 信息 从 驱动 里 面 剥 离 出 
来 ， 让 驱动 以 某 种 标准 方法 拿 到 这 些 平台 信息 呢 Linux 总 线 、 设 备 和 驱动 模型 实际 上 可 以 做 到 这 一 点 ， 豫 
动 只 管 驱动 ， 设 备 只 管 设备 ， 总 线 则 儿 责 匹配 设备 和 了 驱动， 而 驱动 则 以 标准 途径 拿 到 板 级 信息 ， 这 样 ， 豫 
动 束 可 以 放 之 四 海 而 宵 准 了 ， 如 图 12.1 所 示 。 


Linux 的 字符 设备 驱动 需要 编写 fle_ operations R EZ, JP fA vi XbPRDHSE. JAE, GERA. SIGIO 
等 复杂 事物 。 但 是 ， 当 我 们 面 对 一 个 真实 的 硬件 驱动 时 ， 假 如 要 编写 一 个 按键 的 驱动 ， 作 为 一 个 “懒惰 ?的 
程序 员 ， 你 真 的 只 想 做 最 简单 的 工作 ， 壁 如 ， 收 到 一 个 按 刍 中断、 汇报 一 个 按键 值 ， 公 于 什么 
file_operations、 几 种 IO 模型 ， 那 是 Linux 的 事情 ， 为 什么 要 我 管 Linux 也 是 程序 员 写 出 来 的 ， 因 此 ， 程 序 员 
怎么 想 ， 它 必然 要 怎么 做 。 于 是 ， 这 里 就 衍生 出 来 了 一 个 软件 分 层 的 想法 ， 尽 管 le_operations、IO 模 型 
不 可 或 缺 ， 但 是 关于 此 部 分 的 代码 ， 全 世界 念 介 所 有 的 输入 设备 都 是 一 样 的 ， 为 什么 不 提 炬 一 个 中 间 层 出 
来 ， 把 这 些 事情 搞定 ， 也 就 是 在 底层 编写 驱动 的 时 候 ， 搞 定 上 基体 的 硬件 操作 呢 ? 


将 软件 进行 分 层 设 计 应 该 古 软件 工程 最 基本 的 一 个 思想 ， 如 来 所 炬 一 个 input 的 核心 层 出 来 ， 把 跟 
Linux 接 口 以 及 人 整个 一 套 input 事 件 的 汇报 机 制 都 在 这 里 面 实 更， 如 图 12.2 所 示 ， 有 显然 是 非 钟 好 的 。 


便 件 操作 





图 12.1 Linux 设 备 和 豫 动 的 分 离 


各 种 IO 模型 各 种 IO 模型 各 种 WO 模型 


输入 设备 1 驱动 输入 设备 3 驱动 


各 种 IO 模型 


input 核 心 层 


没 备 1 输 入 事件 没 备 2 输 入 事件 没 备 3 输 入 事件 
获取 和 报告 获取 和 报告 获取 和 报告 





图 12.2 ”Linux 驱 动 的 分 层 


在 Linux 设 备 驱 动 栓 染 的 设计 中 ， 除 了 有 分 层 设 计 以 外 ， 还 有 分 隔 的 忠 想 。 举 一 个 价 蛙 的 例子 ,假设 
我 们 要 通过 SPI 总 线 访问 某 外 设 ， 假 设 CPU 的 名 字 叫 XXX1，SPI 外 设 叫 YYY1。 在 访问 YYY1 外 设 的 时 候 ， 
要 通过 操作 CPU XXX1 EBJSPITSEI SSH) S £287] HEX 2 Ui IH SPIZ FUE YYYIBUHB, efai P B) f 3227 8: 
FE: 

cpu xxxl spi reg write () 


cpu xxxl spi reg read() 
spi client yyyl workl () 


cpu xxxl spi reg write() 
cpu xxxl spi reg read) 
spi client yyyl work2() 


如 条 按 照 这 种 方式 来 设计 驱动 ， 结 束 对 于 任何 一 个 SPI 外 设 来 讲 ， 它 的 驱动 代码 都 是 与 CPU 相关 的 。 
EMm SSH ECPU XXX1 上 的 时 候 ， 它 访问 XXX1 的 SPI 主 机 控制 寄存 器， 当 用 在 XXX2 上 的 时 
修 ， 它 访问 XXX2 的 SPI 主 机 控制 寄存 器 : 

Gpu XXxXZ Spi. reg WE 
Cpu. XXx2 Spa reg read) 
spi client yyyl workl() 
Cpu XXX2 spi reg write) 


cpu xxx2 spri reg read () 
Spi clrent yyyl work21) 


这 显然 是 不 被 接受 的 ， 因 为 这 意味 着 外 设 YYY1 用 在 不 同 的 CPU XXX1 和 XXX2 上 的 时 候 需 要 不 同 的 
驱动 。 同 时， 如 果 CPU XXX1 除 了 支持 YYY1 以 外 ， 还 要 支持 外 设 YYY2、YYY3、YYY4 等 ， 这 个 XXX 的 


代码 就 要 重复 出 现在 YYY1、YYY2、YYY3、YYY4 的 驱动 里 面 : 


cpu xxxl spi reg write() 
Cpu xxl Spr reg read) 
spi client yyy2 workl () 
cpu XL Spi reg write) 
cpu xxxl spi reg read() 
Spl Client Vvyy2 WOTE AJ 


按照 这 样 的 馆 辑 ， 如 宁 要 让 N 个 不 同 的 YYY 在 M 个 不 同 的 CPU XXX 上 跪 起来， 需要 M*N 份 代码 。 这 
古 一 种 奥 型 的 强攻 合 ， 不 符合 软件 工程 "高 内 聚 、 低 炎 合 ”和 ”信息 隐蔽 ”的 基本 原则 。 


这 种 软件 架构 是 一 种 典型 的 网 状 粳 合 ， 网 状 粳 合 一 般 不 太 适 合 人 类 的 思维 远 辑 ， 会 把 我 们 的 思维 损 
mlo OTS RRR HIM : N， 我 们 一 般 要 提炼 出 一 个 中 则 “1”， 让 M 与 “1” 掉 合 ，N 也 与 这 个 “1” 精 合 ， 如 图 
12.3 所 示 。 
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YYY1、YYY2、YYY3、YYY4 的 驱动 与 主机 控制 器 XXX1、XXX2、XXX3、XXX4 的 驱动 不 相关 ， 主 机 
控制 右 驱 动 不 关 心 外 设 ， 而 外 设 驱 动 也 不 关心 主机 ， 外 设 只 是 访问 核心 层 的 通用 API 进 行 数据 传输 ， 主 机 
和 外 设 之 间 可 以 进行 任意 组 合 。 


外 设 a 
驱动 
外 设 b 
驱动 
外 设 c 


图 12.4 ” ”Linux 设备 驱 动 的 主机 、 外 设 驱 动 分 离 





如 果 我 们 不 进行 如 图 12.4 所 示 的 主机 和 外 设 分 离 ， 外 设 YYY1、YYY2、YYY3 和 主机 XXX1、 
XXX2、XXX3 进 行 组合 的 时 候 ， 需 要 9 个 不 同 的 驱动 。 设 想 一 共有 mm 个 主机 控制 右 ，n 个 外 设 ， 分 次 的 结 
需要 m+n 个 驱动 ， 不 分 离 则 需要 m*n 个 驱动 。 因 为 ，m 个 主机 控制 器 ，n 个 外 设 的 驱动 都 可 以 被 充分 地 
J 


O 


JE 
H 


RD 


12.2 ”platform 设备 驱动 
12.2.1 platform 总 线 、 设 备 与 驱动 


在 Linux 2.6 以 后 的 设备 张 动 模型 中 ， 需 关心 总 线 、 设 备 和 张 动 这 3 个 实体 ， 总 线 将 设备 和 张 动 绑 定 。 
在 系统 每 注册 一 个 设备 的 时 候 ， 会 如 找 与 乙 匹 配 的 驱动 ， 相反 的 ， 在 系统 每 注册 一 个 驱动 的 时 候 ， 会 寻找 
与 之 匹配 的 设备 ， 而 匹配 由 总 线 完 成 。 


一 个 现实 的 Linux 设 备 和 驱动 通常 都 需要 挂 接 在 一 种 总 线 上 ， 对 于 本 身 依附 于 PCI、USB、I*C、SPI 等 
的 设备 而 言 ， 这 上 自然 不 是 问题 ， 但 是 在 租 入 式 系 统 里 面 ， 在 SoC 系 统 中 集成 的 独立 外 设 控 制 器 、 挂 接 在 
SoC 内 存 空间 的 外 设 等 却 不 依附 于 此 类 总 线 。 基 于 这 一 背景 ，Linux 发 明了 一 种 虚拟 的 总 线 ， 称 为 platform 
总 线 ， 相 应 的 设备 称 为 platform device， 而 驱动 成 为 platform driver. 


注意 : 所 谓 的 platform _ device 并 不 是 与 字符 设备 、 芯 说 备 和 网 络 设备 并 列 的 概念 ， 而 是 Linux 系 统 提 供 
的 一 种 附加 手段 ， 例 如 ， 我 们 通常 把 在 SoC 内 部 集成 的 [LC、RTC、LCD、 看 门 狗 等 控制 器 都 归纳 为 
platform device, MENA LER Rr. platform device fA IJ xe ON Sia 8. 12.1 Prz e 


代码 清单 12.1 platform device 结 构 体 


lstruct platform device 4 


2 const char *name; 

3 Zac rd? 

4 boo id auto; 

5 Struct devicedev; 

oO 152 num resources; 

1 struct resource "resources 

8 

9. Const Struct. platform device ad "Ed entry; 
10 char *driver override; /* Driver name to force a match */ 


l2  JJ* MED Gell pointer *7/ 
l3 S Cru mid ceil mid cell; 


14 

15. J* arch specific additions *7 

IG struct paev archdata archdata; 
17} 


platform driver 这 个 结构 体 中 包含 probe ©) ~ remove O 、 一 个 device driver 实例、 电源 管理 函数 
suspend () ~ resume () ， 如 代码 清单 12.2 所 示 。 


代码 清单 12.2 platform driver 结 构 体 


lStruct platiorm Craver 4 

Lit (probe) TStruct plarrorm device *)4 

Ime (remove) (Struce Placiorm device ~j; 

void. (*shutdown) (Struct. platform device: *); 

ant. ("pus peni (Struct platrFrorm device ~; pu message C State); 
inr (resume) (struce pilgatrorm device: ws 

struct device driver driver; 

Conse Sbtruct platrorm device nd “10 table; 

bool prevent deferred probe; 


O XO OO «JI Oy Or d LO RO 


m 
一 一 
“Ne 


HI platform driver 的 suspend ©) . resume O 做 电源 官 理 回调 的 方法 目前 已 经 过 时 ， 较 好 的 做 
法 是 实现 platform drivertJdevice driver 中 的 dev pm ops 结 构 体 成 员 〈 后 续 的 Linux 电 源 管 理 章 节 会 对 此 进行 
更 细致 的 介绍 ) ， 人 代码 清单 12.3 给 出 了 device driver] X. 


代码 清单 12.3 device driver 结构 体 


LOGEuUGt. device dryer. 1 


2 const char *name; 
3 struct Dus type "OUS 
4 
5 struct module *owner; 
6 Cons ©. char "mod name;  J* used for built-in modules */ 
7 
8 bool suppress bind attrs; /* disables bind/unbind via sysfs */ 
9 
10 CONUS SEruet cf -device: id "Od maio tanle; 
LL Const -Struct aC pL device Id *aocpr maton Table; 
12 
T3 int (*probe) (struct device *dev); 
14 int (*remove) (struct device *dev); 
TS void (*shutdown) (struct device *dev); 
16 int (suspend) XSLIPUGD device “dev, pm Message T State), 
T int (*resume) (struct device *dev); 
18 Conse “Struce aver bure group- groups; 
150 
2.) CODnSL-SLtPUCLC dev ‘pm Gps “pm; 
zn 
22 SUPUCCLOIIVerf Private "p; 
29 


P i2c driver. spi driver. usb driver. pci driver 中 都 包含 了 device driver 结 构 
体 实例 成 员 。 它 其 实 描述 了 各 种 xxx driver (xxx ARA) 在 驱动 意义 上 的 一 些 共性 。 


系统 为 platform 忌 线 定 义 了 一 个 bus type 的 实例 platform bus type， 其 定义 位 于 drivers/base/platform.c 
下 ， 如 代 但 清单 12.4 所 示 。 


代 但 清单 12.4 platform 总 线 的 bus_type 实 例 platform bus type 


LSprlct DUS ype pst opm bus: type = 4 


2 .name = “oO Latr oO im, 

3 dev “Groups = platform dev groups, 
4 .match = platform match, 

5 .UeVent —plstorm Usvent, 

6 .pm —oRplatrorm dey. Di Ops, 
7); 


这 里 要 重点 关注 其 match O MER A, EK EFL CUR J platform. devicefllplatform driver [P] 7 
如 何 进行 下 配 ， 如 代码 清单 12.5 所 示 。 


代码 清单 12.3 platform bus type 的 match () X pk Av 


ee 


| 

3 Cruce Dilavrorm device: *pdéey = us Plati orm device (dey); 
4 SLEUCE. PleceOrm drivers ^pudrv = vo platrorm Craver (dry); 
5 

6 L* Attempt an OF Style match first */ 

7 LI (of drrver match device(dey,; dev) 

8 return 1; 

9 
TO /* Then try ACPI style match */ 


LI Li acpi Craver match idevice(dev,. dev) 


12 return. 

DS 

14 |* Then- try to matoh dgalnst the id table */ 

5 if (pdrv=>zid table) 

EG betur plstrtora gatch motpdrvescd-vable, pev). ic NULG? 
17 

18 /* fall-back to driver name match */ 

19 return (strcmp (pdev->name, drv->name) == 0); 

20] 


从 代码 清单 12.$ 可 以 看 出 ， 匹 配 platform device 和 platform driver 有 4 种 可 能 性 ， 一 是 基于 设备 树 风 格 的 
匹配 ; 二 是 基于 ACPI 内 格 的 匹配 ; 三 是 匹配 ID 表 〈 即 platform device 设 备 名 是 否 出 现在 platform driver 的 ID 
KW) ; 第 四 种 是 匹配 platform device 设备 名 和 驱动 的 名 字 。 


对 于 Linux 2.6ARMF & ifj zi, platform _ device 的 定义 通 冲 在 BSP 的 板 文件 中 实现 ， 在 板 文 件 中 ， 将 
platform device 归 纳 为 一 个 数组 ， 最 终 通过 platform add devices () 函数 统一 注册 。 
platform add devices () 郴 数 可 以 将 平台 设备 添加 到 系统 中 ， 这 个 函数 的 原型 为 : 


int. platform add devrioces(struck placromm devuree: * "deve, Imt Num); 


ZAM SS -TSEBE BRABANT ET, 9B ASUJT Awe Noe, EARS UA T 
platform device register O 国 数 以 注册 单个 的 平台 设备 。 


Linux 3.x 之 后 ，ARM Linx K EX AII U 9 3 JE REISS platform device 和 注册 ， 而 倾 问 于 根据 
设备 树 中 的 内 容 目 动 展 开 platform device. 


12.2.2. ”将 globalfifo 作 为 platform 设 备 


现在 我 们 将 前 面 草 市 的 globalfifo 驱 动 挂 接 人 到 platform 总 线 上 ， 这 要 完成 两 个 工作 。 
1) 将 globalfifo 移 植 为 platform 驱 动 。 
2) 在 板 文 件 中 添加 globalfifo 这 个 platform 设 备 。 


为 完成 将 globalfifo 移 植 到 platform 张 动 的 工作 ， 需 要 在 原始 的 globalfifo 字 符 设 备 驱动 中 套 一 层 
platform driver 的 外 壳 ， 如 代码 清单 12.6 所 示 。 注 意 进 行 这 一 工作 后 ， 并 没有 改变 globalfifo 是 字符 设备 的 本 
M, REKREI y platform E. 


代码 清单 12.6 ”为 globalfifo 添 加 platform driver 


上 


2{ 

3 int ret; 

4 dev. © devno = MÉ&BbV(globalfiro mayor, U)? 

5 

6 if (globalfifo major) 

7 人 
8 else { 

9 pet = alloc Chroey tegironi(tdevno, Uz 1, "globaltito")j 
10 Globalrito major = MAJOR (devine); 

11 } 

12 if (ret < 0) 

du return ret; 

14 

15 globalrifo devp = devm kzalloc(&pdev-^dev, sizeof (*global fifo devp), 

GFP KERNEL); 

16 Lr (igLobDalFriro devp) 1 

17 ret = -ENOMEM; 

Le goto fail. malloc; 

19 } 
20 
AL globalrifo setup: cdev(globalIiriio devn; UJ 
22 
23 mutex init(&globalfifo devp->mutex) ; 
24 init waitqueue head(&globalfifo devp->r wait); 
2) init waitqueue head(&globalfifo devp->w wait); 
26 
2.4 return 0; 
28 
ota malloc: 
30 unregister chrdev reqioni(devno, 45 
31 return ret; 
32} 
23 
34static int globalriro remove (struct platform device ^pdev) 
S4 
36 cdev deliseglobalrrto- devp-oodev); 
ou unregister chrdev regron(MKDEV(globalfito major, Oy, 1); 
38 

39 return 0; 

40} 

41 

dotatie SLrUOL platform driver globaliito driver = 4 

43 .driver = { 

44 .name = "globalfifo", 

45 .owner = THIS MODULE, 

46 by 

47 probe = globaliilo probe, 

48 .remove = globalfifo remove, 

49}; 

50 


oLmodule. platioum driveri(oloDallilfo driver); 


ER 4212.67, module platform driver () 宏 所 定义 的 模块 加 载 和 人 邮 载 函 数 仅 仅 通 过 
platform driver register () ~ platform driver unregister () 函数 进行 platform _ driver 的 注册 与 注销 ， 而 原先 
注册 和 注销 字符 设备 的 工作 已 经 被 移交 到 platform driver 的 probe O 和 remove O MWA KUE. 


代码 清单 12.6 未 列 出 的 部 分 与 原始 的 globalfifo 驱 动 相 同 ， 都 是 实现 作为 字符 设备 驱动 核心 的 
file operations 的 成 员 函 数 。 注 册 完 globalfifo 对 应 的 platform driver 后 ， 我 们 会 发 现 /sys/bus/platfornmydrivers H 
录 下 多 出 了 一 个 名 字 叫 globalfifo 的 子 目 录 。 


为 了 完成 在 板 文件 中 添加 globalfifo 这 个 platform 设 备 的 工作 ， 需 要 在 板 文 件 arch/arm/mach-<soc 名 
>/mach-< 板 名 >.c〉 中 添加 相应 的 代码 ， 如 代码 清单 12.7 所 示 。 


代码 清单 12.7 与 globalfifo 对 应 的 platform device 


lotatro Struct platform device Globali tro device = 4 
2 „name = "olobaltrtro", 
So ada = -1, 
4j; 
并 最 终 通 过 类 似 于 platform add devices © 的 图 数 把 这 个 platform device 注 册 进 系统 。 如 果 一 切 顺 
利 ， 我 们 会 在 /sys/devices/platform 目录 下 看 到 一 个 名 字 叫 globalfifo 的 子 目 孙 ，/sSys/devices/platformy/globalfifo 
中 会 有 一 个 driver 文 件 ， 它 是 指 同 /sys/bus/platfornydrivers/globalfifo 的 符号 链接 ， 这 证 明 驱 动 和 设备 思 配 上 


To 


12.2.3 platform 设备 资源 和 数据 


留意 一 下 代码 清单 12.1 中 platform device 结 构 体 定义 的 第 6~7 行 ， 它 们 摘 述 了 platform devicely) W, 
资源 本 号 由 resource 结 构 体 描述 ， 其 定义 如 代码 清早 12.8 所 示 。 


代码 清单 12.8 resource 结构 体 定义 


lstruct resource { 


const char *name; 


YAO OB CO h2 


—— 
“Ne 


unsigned long flags; 
struct resource *parent, *sibling, *child; 


resource Size. t Start: 
resource Size t end; 


我 们 通 钊 关心 start、end 和 fags 这 3 个 字段 ， 它 们 分 别 标明 了 资源 的 开始 值 、 结 束 什 和 类型 ，flags 可 以 
ZJIORESOURCE IO, IORESOURCE MEM, IORESOURCE IRQ. IORE-SOURCE DMA 等 。start、end 的 


含义 会 随 着 flags 而 变更 ， 如 当 flags 为 IJORESOURCE MEM 时 ，start、end 分 别 表示 该 platform device SHH) 
内 存 的 开始 地 址 和 结束 地 址 ; 当 flags 为 IJORESOURCE IRQ}, start, end Ji] zézr iz platform. device 使 用 的 
中 断 号 的 开始 值 和 结束 值 ， 如 果 只 使 用 了 1 个 中 断 号 ， 开 始 和 结束 值 相 同 。 对 于 同 种 类 型 的 资源 而 言 ， 可 
以 有 多 份 ， 例 如 说 菜 人 设备 占据 了 两 个 内 存 区 域 ， 则 可 以 定义 两 个 IORESOURCE_MEM 资 源 。 


对 resource 的 定义 也 通常 在 BSP 的 板 文 件 中 进行 ， 而 在 有 其 体 的 设备 驱动 中 通过 platform get resource () 
这 样 的 API 来 获取 ， 此 API 的 原型 为 : 


So Pesource *platlonun get. tesource (struct platrorm device * Unsigned int, 


unsigned int); 


例如 在 arch/arm/mach-at91/board-sam9261ek.c 板 文件 中 为 DM9000 网 卡 定 义 了 如 下 resouce: 


Static struct resource 
[O]. = 4 
oLar 
send 
.flags 


.Start 
.end 
.flags 


.flags 


dm9000 resource[] = 1 


AT91 CHIPSELECT 2, 
AT91 CHIPSELECT 2+ 3, 
IORESOURCE MEM 


AT91 CHIPSELECT 2+ 0x44, 
AT91 CHIPSELECT 2+ OxFF, 
IORESOURCE MEM 


IORESOURCE IRQ 
IORESOURCE IRQ LOWEDGE | IORESOURCE IRQ HIGHEDGE, 


在 DM9000 网 卡 的 驱动 中 则 是 通过 如 下 办 法 拿 到 这 3 份 资源 : 


ab-^addr fes 
ape-c0Sba Tes 
QOScIFO Teg 


platrorm get resource(pdev, IORESOURCE MEM, 0); 
paatrorm get resoUurce(pdev, ILORESOURCE MEM, 1)7 
platrorm ger resource (pdevy, IOBRBESOURCE IRG; 097 


X FIRQM zi. platform get resource O 还 有 一 个 进行 了 封 猴 的 变 体 platform get irq O ， 其 原型 
为 : 


Int: platform get 1rq(suruck plauform device *dev, unsigned: cnt num); 


它 实 际 上 调用 platform get resource (dev, IORESOURCE IRQ, num) ; ”. 


设备 除了 可 以 在 BSP 中 定义 资源 以 外 ， 还 可 以 附加 一 些 数据 信息 ， 因 为 对 设备 的 硬件 描述 除了 中 断 、 
内 存 等 标准 资源 以 外 ， 可 能 还 会 有 一 些 配置 信息 ， 而 这 些 配 置信 息 也 依赖 于 板 ， 不 适宜 直接 放置 在 设备 驱 
动 上 。 因 此 ，platform 也 提供 了 platform data 的 支持 ，platform data 的 形式 是 由 每 个 驱动 自 定 义 的 ， 如 对 于 
DM9000 网 卡 而 言 ，platform data 为 一 个 dm9000 plat data 结 构 体 ， 完 成 定义 后 ， 就 可 以 将 MAC 地 址 、 总 线 
宽度 、 板 上 有 无 EEPROM 信息 等 放 入 platform data 中 ， 如 代码 清单 12.9 所 示 。 


代码 清单 12.9” platform data 的 使 用 


lotatro struct dm 0000 plat dara dn99U0 platdava.— i 

2 .flags - DM9000 PLATF 16BITONLY | DM9000 PLATF NO EEPROM, 
3}; 

4 

JobLalie. SULCUCE IIquEOEm device <dm9000. devica = 4 


6 .name = "dm9000", 

J ES] = 0, 

8 Dum. resources- = ARRAY SIZE (amg000: resource), 
P SDOSOUrce = dmo9000-xesource, 
10 . dev = { 
IT platform data. = Sm O00 platdata;, 

12 } 

13} 


而 在 DM9000 了 网 卡 的 驱动 drivers/netethernet/davicom/dm9000.c 的 probe〈) rB, WAU FERRER) S 


platform data: 


Struct -amy000. plat daba *pdata: — dev get pletdaratepdey=rdev):; 


ELH, pdevAplatform device 的 指针 。 
由 以 上 分 析 可 知 ， 在 设备 驱动 中 引入 platform 的 概念 全 少 有 如 下 好 处 。 


1) 使 得 设备 被 挂 接 在 一 个 总 线 上 ， 符 合 Linux 2.6 以 后 内 核 的 设备 模型 。 其 结果 是 使 配套 的 sysfs 节 
Fy Ve HU FERE ZJ RJ RE e 


2) 隔离 BSP 和 张 动 。 在 BSP 中 定义 platform 议 备 和 设备 使 用 的 资产、 设备 的 具体 配置 信息 ， 而 在 驱动 
中 ， 只 需要 通过 通用 API 去 获取 资源 和 数据 ， 做 到 了 板 相 关 代 人 码 和 驱动 代码 的 分 离 ， 使 得 驱动 具有 更 好 的 
可 扩展 性 和 跨 平 台 性 。 


3) 让 一 个 驱动 支持 多 个 设备 实例 。 璧 如 DM9000 的 驱动 只 有 一 份 ， 但 是 我 们 可 以 在 板 级 添加 多 份 


DM9000 的 platform _ device， 它 们 都 可 以 与 唯一 的 驱动 匹配 。 


在 Linux 3.x 之 后 的 内 核 中 ，DM9000 驱 动 实际 上 已 经 可 以 通过 设备 树 的 方法 被 枚 举 ， 可 以 参见 补丁 


net: dm9000: Allow instantiation using device tree (A t%commitHJIDsz0b8bflba) 。 


index a2408c8..dd243al 100644 

--- a/drivers/net/ethernet/davicom/dm9000.c 

+++ b/drivers/net/ethernet/davicom/dm9000.c 

aa -29,6+29,8@@ 

#include <linux/spinlock.h> 

#include «linux/crc32.h» 

#include <linux/mii.h> 

+#include <linux/of.h> 

+#include <linux/of net.h> 

#include <linux/ethtool.h> 

#include «linux/dm9000.h» 

#include <linux/delay.h> 

CG =[351;, 671352, 51000 Stale canot Struct met device ops gu9000 netdev ops = 1 
#endif 

); 

torace srruct. da9000 plat date “om U0U. parse dETSCPUOCC. device *dev) 


+f 

E 

+} 

ES 

les 

* Search DM9000board, allocate space and register it 
a 

@@ -1366, 6+1393,12@@ dm9000 probe(struct platform device *pdev) 
int Gs 

us2zrd wal; 

+ if (!pdata) { 

t paata = dm9000 parse gt(&pdev-»dev); 

十 if (IS ERR (pdata) ) 

+ return PTR ERR (pGata); 

y 

十 

/* Init network device */ 

ndev = alloc eStherdevisizeof(struct board inro))y 

if (!ndev) 


Ce -1676,11941709,2088 dm9000 dry remove(struct platform device *pdev) 
return 0; 


j 
+#ifdef CONFIG OF 


TSULHLLC CONSt Struct Qf device Ld Om9000 OL matches | = 4 
十 t. „compatible = "davyicom,cmg000"; +}, 
+ { /* sentinel */ } 
tj; 
+MODULE DEVICE TABLE(of, dm9000 of matches); 
+#endif 
ji 
stalig Struct platrtorm driver xxuno9000 driver = 4 
.driver = { 
.name = "dm9000", 


.owner — THIS MODULE, 
.pm = &dm9000 dry pm ops, 
T Of match table = of match ptrí(dam9000 or matches), 
by 
probe = dm 9000 probe, 
.remove = dm9000 drv remove, 


改 为 设备 树 后 ， 在 板 上 还 加 DM9000 网 卡 的 动作 束 变 成 了 人 简单 地 修改 dts 文 件 ， 如 
arch/arm/boot/dts/s3c6410-mini6410.dts 中 就 有 这 样 的 代码 : 


srom-csl@18000000 { 

compatible = "simple-bus"; 

#address-cells = «1»; 

#Size-cells = «1»; 

reg = «0x180000000x8000000»; 

ranges; 

ethernet@18000000 { 
compatible = "davicom,dm9000"; 
reg = «0x180000000x20x180000040x2»; 
interrupt-parent = <&gpn>; 
Interrupts = SILBO TYPE LEVEL HIGH 
davicom,no-eeprom; 


天 于 设备 树 情 况 下 张 动 与 设备 的 匹配 ， 以 及 张 动 如 何 获取 平台 属性 的 更 详细 细节 ， 将 在 后 续 草 节 介 


2H. 


12.3 ”设备 驱动 的 分 层 思 想 
12.3.1 设备 驱动 核心 层 和 例 化 


在 12.1 市 ， 我 们 已 经 从 感性 上 认识 了 Linux 驱 动 软件 分 层 的 意义。 其 实 ， 在 分 层 设 计 的 时 候 ，Linux 内 
核 大 量 使 用 了 和 面 同 对 象 的 设计 思想 。 


在 面 癌 对 象 的 程序 设计 中 ， 可 以 为 条 一 类 相似 的 事物 定义 一 个 基 类 ， 而 上 其 体 的 事物 可 以 继承 这 个 基 类 
中 的 轴 数 。 如 来 对 于 继承 的 这 个 事物 而 言 ， 作 成 员 函 数 的 实现 与 基 类 一 怪 ， 那 它 丈 可 以 且 接 继承 基 类 有 隙 
7i: 相反 ， 它 也 可 以 重 与 《Overriding) ， 对 父 关 的 函数 进行 重新 定义 。 契 于 类 中 的 方法 与 父 关 中 的 东方 
法 具有 相同 的 方法 名 、 返 回 尖 型 和 参数 表 ， 则 新 方法 将 禾 兰 原 有 的 方法 。 这 种 面 癌 对 象 上 " 多 态 ” 设 计 趾 宁 
极 大 地 提高 了 代码 的 可 重用 能 力 ， 生 对 现实 世界 中 事物 之 间 关 系 的 一 种 民 好 呈现 。 


Linux 内 梯 完 全 是 由 C 语 言 和 汇编 语 诗 写成 ， 但 是 却 频 壹 地 用 到 了 和 面 同 对 象 的 设计 思想 。 在 设备 驱动 方 
面 ， 往 往 为 同类 的 设备 设计 了 一 个 框 染 ， 而 框 染 中 的 核心 层 则 实现 了 壕 设备 退 用 的 一 些 功能 。 同 样 的 ， 如 
来 具体 的 设备 人 不想 使 用 核心 层 的 函数 ， 也 可 以 乍 写 。 淮 个 例子 : 


return Lype core funoa(xxx device ~ Pottom dev, param: type paranl; param! Lype param) 


{ 
LL (Dottom deve^runca) 
return bottom dev-^runcatparaml, paramz); 
/* 核心 层 通用 的 Eunca 代 码 */ 


fE EXhcore funca KMF, SMAKER funca O , WRES S, uw mMIKERT 
55, Al, Ae AIA. Ae, PD ER AY CAS n] AERE 2305 VAS c6 HJ 
funca O 对 应 的 功能 ， 只 有 少数 特殊 设备 需要 重新 实现 fanca ©) 。 


return type core funca(xxx device * bottom dev, paraml type paraml, paraml type param2) 
{ 

/* 通 用 的 步骤 代码 A */ 

typea dev commonA(); 


/* 底层 操作 oOPS1 */ 

bottom dev-»funca opsl(); 
/* 通 用 的 步骤 代码 B * / 
typea dev commonB(); 


/* J&EfBMFops2 */ 

bottlom. dev-^tunea Ops< () + 
/x* 通 用 的 步骤 代码 C * / 
typea dev commonB(); 


/** 底层 操作 ops3*/ 
bottom dev--^fuüunca Opss.(); 


上 述 代 码 假 定 为 了 实现 fbnca《〈) , MIPIM, WIEME M, ARRAS TISA, JRE 


ops1、 通 用 代码 B、 底 层 ops2、 通 用 代 伍 C、 展 层 ops3” 这 几 步 ， 分 层 设 计 珊 来 的 明显 好 处 是 ， 对 于 通用 代 
人 码 A、B、C， 具 体 的 确 层 驱动 不 需要 再 实现 ， 而 仅仅 只 要 关心 其 压 层 的 操作 ops1、ops2、ops3 则 可 。 


图 12.5 明 确 有 反映 了 设备 驱动 的 核心 层 与 具体 设备 驱动 的 关系， 实际 上 ， 这 种 分 层 可 能 只 有 两 层 〈 见 图 
12.5a) ， 也 可 能 是 多 层 的 (图 12.5b) 。 


A 类 设备 的 核心 层 







A 类 设备 实例 1 A 类 设备 实例 2 A 类 设备 实例 3 


A 类 设备 的 核心 层 


A 类 设备 子 类 1 的 核心 层 A 类 设备 子 类 2 的 核心 层 





A 类 设备 子 类 1 的 实例 1 A 类 设备 子 类 1 的 实例 2 A 类 设备 子 类 2 的 实例 1 


b) 


图 12.5” ”Linux 设 备 驱 动 的 分 层 


这 样 的 分 层 化 设计 在 Linux 的 input、RTC、MTD、LIC、SPI、tty、USB 等 诸多 类 型 设备 驱动 中 屡 见 不 
鲜 。 下 和 面 的 几 小 节 以 input、RTC、Framebuffer 等 为 例 先 进行 一 番 讲 解 ， 当 然 ， 后 续 的 草 刷 会 对 与 儿 个 大 的 
设备 类 型 对 应 的 驱动 层次 进行 更 详细 的 分 析 。 


12.3.2. ”输入 设备 驱动 


得 入 设备 〈 如 按键 、 键 盘 、 和 触摸 屏 、 鼠 标 等 ) 是 典型 的 字符 设备 ， 其 一 般 的 工作 机 理 是 底层 在 按键 、 
触摸 等 动作 发 送 时 产生 一 个 中 断 (或 驱动 通过 Timer 定 时 查询 ) ， 然 后 CPU 通过 SPI、FC 或 外 部 存储 器 总 
线 访 取 键 值 、 坐 标 等 数据 ， 并 将 它们 放 入 一 个 缓 神 区 ， 字 人 符 设备 驱动 管理 该 缓冲 区 ， 而 驱动 的 read ©) $e 
口 让 用 户 可 以 读 取 键 值 、 坐 标 等 数据 。 


显然 ， 在 这 些 工 作 中 ， 只 是 中 断 、 读 键 值 /坐标 值 是 与 设备 相关 的 ， 而 输入 事件 的 缓冲 区 管理 以 及 字 
从 设备 驱动 的 亿 e _ operations 接 口 则 对 输入 设备 是 通用 的 。 基 于 此 ， 内 核 说 计 了 输入 子 系统 ， 由 核心 层 处 理 
公共 的 工作 。Linux 内 核 输入 子 系统 的 框架 如 图 12.6 所 示 。 


虚拟 终端 





多 12.6” Linux 内核 输入 子 系统 的 框架 
输入 核心 提供 了 底层 输入 设备 驱动 程序 所 需 的 API[， 如 分 配 / 释 放 一 个 输入 设备 : 


Struct input dev “inpur allocate device (void); 
VOLO 2upuL Iree devlicetstpucE Input dev ee = 


input allocate device €) 返回 的 是 1 个 input dev 的 结构 体 ， 此 结构 体 用 于 表征 1 个 输入 设备 。 
注册 /注销 输入 设备 用 的 接口 如 下 : 


int Must Check input. register Gevice(strucl. 1npur dev ~); 
VOLO Input ulfeglster device(stpuct input dey ~); 


报 各 输入 事件 用 的 接口 如 下 : 


/* 报告 指定 type、Ccode 的 输入 事件 */ 

võid input event (Struct input dev *dev, unsigned nt type; unsigned antl Code; int value); 
/* 报告 键 值 */ 

void input report .kKey (Struct. input dev *dev;, unsigned int code, Int value; 

/* 报告 相对 坐标 */ 

VOLO INDUL report reL Cruct input dev “dev; Unsigned Int code; INC value) ¢ 

/* 报告 绝对 坐标 */ 


void input report abs(struct input dev *dev, unsigned int code, int value); 
/* 报告 同步 事件 */ 
void input sync (Struct input dev *dev); 


sr T PPS eT ASE, A A St INASUEZaTJoEdRXRN. IX PSR input _ event， 如 代码 清单 
12.10 所 示 。 


代码 清单 12.10 input event 结 构 体 


lstruct znpur event 1 


2 struct timeval time; 
3 . ULGlype; 

4 _; Ubkecode; 

9 四 本 ae = 

6}; 


drivers/input/keyboard/gpio_keys.c 基 于 input 架 构 实 现 了 一 个 通用 的 GPIO 按 键 驱 动 。 该 驱动 是 基于 
platform driver 染 构 的 ， 名 为 “gpio-keys”。 它 将 与 便 件 相关 的 信息 (如 使 用 的 GPIO0 写 ， 按 下 和 抬 起 时 的 电 
平等 ) 屏蔽 在 板 文件 platform _device 的 platform _ data 中， 因此 该 驱动 可 应 用 于 各 个 处 理 需 ， 有 具有 民 好 的 路 和 平 
台 性 。 人 代码 清单 12.11 列 出 了 该 驱动 的 probe ©) PAB. 


代码 清单 12.11 ”GPIO 按 键 驱 动 的 probe() 函数 


static Inc GPO Keys probe (strucl platform device *pdev) 


3 struct device *dev = &pdev->dev; 

4 const struct gpio keys placrorm data *pdata = dev get platdata(dev); 
9 SUPUCL gpio keys drudata *ddava; 

O SEIUCE Input dev *18put; 

i Gre X S126; 

8 int i, error? 

9 int wakeup = 0; 


10 

11 if (!pdata) { 

12 pdata = gpio keys get devtree pdata (dev); 

Lo if (IS ERR(pdata) ) 

14 return PIR ERR (paata); 

Ly j 

16 

LI Size = SIZeocrt(sLtruct gpio keys devdata) F 

18 poata- npu CONS * SIZOOL(Strucb gpio Dutton data); 


l9 ddata = devm EkzabLloc(devy sige; GRP KERNEL); 
20 if (!ddata) { 


21 dev err (dev; “alleed Co: mllocqte Ststeum")s 

Z2 return -ENOMEM; 

sd | 

24 

29- Lnpur = devm L0puL allocare device (dev); 

20 ae: qvloxnpubt) 4 

2a dev err(dev, "failed to allocate input deviceXin")s 
28 return -ENOMEM; 

29 ] 

30 


31 ddata->pdata = pdata; 
32 ddata->input = input; 
33 Murex rniyt(sddáta-sdrsable Lock); 


35 Platform set drvdata(pdev, ddata); 
36 Input Ser drydate(rmputy ddata); 


eT, 
38 input->name = pdata->name : pdev->name; 
39 input->phys = "gpio-keys/input0"; 


40 input->dev.parent = &pdev->dev; 
41 input->open = gpio keys open; 
42 input->close = gpio keys close; 


44 input->id.bustype = BUS HOST; 
45 input->id.vendor = 0x0001; 
Jo ldsgmput-rd.prodouct = 0x007 


47 input->id.version = 0x0100; 


49 /* Enable auto repeat feature of Linux input subsystem */ 
50 if (pdata->rep) 


51 -Seb PIG EV OREP; PICS CyD] 

52 

Oo Oe (L S 07 1 < pdadtdcecHbuttonss bast): 4 

54 CONS: SCtruct ORG keys Dutton “button = <pdata--buveons (1); 
55 Struct gpio Dutton data-^*bdacta = <ddata=-datalil; 

96 

97 error. = Opie keys setup Key (pdev; Input; .bdata, bulron)s 

wis Lt error) 

I9 return error; 

60 

61 if (button->wakeup) 

62 wakeup = 1; 

63. ] 

64 

Oo Error = Sysis create group(epuevesdevekoDjg, GUgpro keys acer Group); 
sis pe 

OT error = put TeGisuer Cevice (input); 

68 

69 } 


上 述 代码 的 第 25 行 分 配 了 1 个 输入 设备 ， 第 31~47 行 初始 化 了 该 Input_dev 的 一 些 属性 ， 第 58 行 注册 了 
这 个 输入 设备 。 第 53~63 行 则 初始 化 了 所 用 到 的 GPIO， 第 67 行 完成 了 这 个 输入 设备 的 注册 。 


在 注册 输入 设备 后 ， 底 层 输 入 设备 驱动 的 核心 工作 只 剩 下 在 按键 、 触 措 等 人 为 动作 发 生 时 报告 事件 。 
代码 清单 12.12 列 出 了 GPIO 按 键 中 断 发 生 时 的 事件 报告 代码 。 


代码 清单 12.12”GPIO 按 键 中 断 发 生 时 的 事件 报告 


ES 


3. Et opio Dutton data “ota = 09v 19; 

T Const Struct cgpro Keys Dutton “Dutton = Ddata- pü tOn 
人 

6 unsigned long flags; 
7 
8 


BUG: ONTI T we bdavca==1 754) 7 

9 
TO prn Lock rrqsave(esbdata- lock, flags) 
LI 
L2 wr i pdava=> key. pressed): 4 
13 if (bdata->button->wakeup) 
14 pm wakeup event (bdata->input->dev.parent, 0); 
19 
16 VIPUL OVON Inputs EV Bi, Duttone code. Lya 
T7 Input Syne (1npuL); 
To 
19 Lr. (Ibdata--ctimer debounce)- :| 
20 Input event(input,-EV KEY, buccon=>code;, . .0)7 
Ze input eSyncirnpub); 
A GOCO Out? 
23 } 
24 
29 bdata= Key pressed = Truc, 
26 } 
21 
20: LE (boata -timer debounce) 
29 mod timer (&bdata->timer, 
30 Jit hres F msecs vO jai ites(boava->uimer debounce)) 
SUM. 


o2 Spon unlock. srqrestored«bdata- lock, lags) 7 
33 return IRQ HANDLED; 
34) 


GPIO 按 键 驱 动 通过 input event () ~ input sync OO XIF MRAR dE PC HE S PE DAE ZEE. MU 
层 的 GPIO 按 键 驱 动 可 以 看 出 ， 访 驱动 中 没有 任何 fle _ operations 的 动作 ， 也 没有 各 种 IO 模型 ， 注 册 进 入 系 
统 也 用 的 是 input register device () 这 样 的 与 input 相 关 的 API。 这 是 由 于 与 Linux VFS 接 口 的 这 一 部 分 代码 


全 部 都 在 drivers/input/evdev.c 中 实现 了 ， 代 码 清 时 12.13 摘 取 了 部 分 关键 代 人 。 


代码 清单 12.13 


tota rrio SSsrZe i evdev Tread(eurucry, Eee 


char 


input 核 心 层 的 他 e operations 和 read €) KZ 


全 


2 SEA 

94 

4 CrO evdev ocbLrxence "olrenu e ba le= pri vars. data, 

5 struct evdev *evdev = client-»evdev; 

o ucrucb Ino even: event; 

7 Size vo read = p7 

8 ant error; 

9 

IO Xf (County: I US count < Input event “size () ) 

LR return -—EINVAI 

E2 

Lo FOr AFJ 4 

14 if (levdev-»exist || client->revoked) 

1o return -—ENODEV; 

16 

17 1h. COLL CKet Meo. Ee Clrentes>baLlL % 

18 (file-»f flags & O NONBLOCK). 

19 return -EAGAIN; 
20 
Zl T 
22 * count == 01S special - no IO is done but we check 
23 x for error conditions (see above). 
24 * / 
ZO if (count == 0) 
26 break; 
21 
28 While (read cr Input Svent SL2e() <= COUNT && 
29 evdev fetch. next event (client, Gevene)) d 
30 
24. ix^ (xnput eveut uo user(DbuLfer k read, &event)) 
32 return —BRFAUDLT; 
35 
34 Lead. = Xmput event S761) 4 
oo } 
36 
Sal if (read) 
39 break; 
39 
40 pL Titres Llags & OUNONBEOCK)). 4 
41 error = Walt, vent anterrupul ble (evdev= wait, 
42 clrentespacket. head t="Clieni=>rail 
43 levdev-»exist || client->revoked) ; 
44 if (error) 
45 return error; 
46 } 
47 } 
48 
49 return read; 
50} 
S 


DootdLioc CONSE cSLEUGE Bile Operations: evdev Tops 


53 .owner = THIS. MODULE; 
54 .read = SvVGev read; 
OO KNEES = evdev write; 
S o wood — evdev poll, 
57] .open — evdev open, 
Jo #0 lease = evde relego; 
03. sUMLOCKed, OCU evcev. OCC 


60#ifdef CONFIG COMPAT 


Ol compat 1OCU= evdey Joctl compst, 
62#endif 

63 .fasync = GVgev rasyuc, 

64 .flush = "YOY T Lusi; 

65 .llseek —nho- IIsesk, 

66]; 


上 述 代码 中 的 17~19 行 在 检查 出 是 非 阻 
1E NARFE Y BREWER. PELARE, H 
有 间接 唤醒 这 个 等 每 队列 evdev->wait 的 功能 ， 


FE 


{ 


my VY, 


Wiha, Bi 


X 。 


SE gpi 


R ANI oU NS S BEIRTE N BSE LE 


而 第 29 行 和 第 41~43 行 的 代 
o keys3kay Œ m val H] MJinput event ©) ~ input sync () 


返回 EAGAIN 错 误 ， 


12.3.3 RICKS Ks 


RTC (SEIT) AWEWE, FE RSCTA ITAL RRA BY DOE STI. “EI J NITET 
断 以 及 闹钟 CAlarm) 中 断 的 能 力 ， 是 一 种 典型 的 字符 设备 。 作 为 一 种 字符 设备 驱动 ，RITC 需 要 有 
file _ operations 中 接口 函数 的 实现 ， 如 open O ~ release () ~ read ©) 、poll O ~ ioctl () 等 ， 而 典型 的 
IOCTL 包 括 RTC SET TIME, RTC ALM READ, RTC ALM SET. RTC IRQP SET. RTC IRQP READ 
等 ， 这 些 对 于 所 有 的 RTC 是 通用 的 ， 只 有 底层 的 具体 实现 是 与 设备 相关 的 。 


因此 ，drivers/rtc/rtc-dev.c 实 现 了 RTC 驱 动 通 用 的 字符 设备 驱动 层 ， 它 实现 了 了 file opearations 的 成 员 函 数 
以 及 一 些 通 用 的 关于 RTC 的 控制 代码 ， 并 同 拘 层 导 出 rtc device register O . rtc device unregister () 以 注 
册 和 注销 RIC; 叶 出 rtc_class_ops 结 构 体 以 手 述 故 层 的 RTC 便 件 操 作 。 这 个 RTC 通 用 层 实 现 的 结果 是 ， 瓜 
层 的 RTC 驱 动 不 再 需要 关心 RTC 作 为 字符 设备 驱动 的 具体 实现 ， 也 无 震 天 心 一 些 通 用 的 RTC 控 制 敢 辑 ， 图 
12.7 表 明了 这 种 天 系 。 


file operations 





rtc class ops 
RTC 驱动 A RTC 驱动 B 





RTC 驱动 C 


图 12.7 Linux RTC 设 备 驱动 的 分 层 





drivers/rtc/rtc-s3c.c33 f S3C64108]RTCURZJ, FOEHRRTCLL RA Erte class ops 的 代码 如 代码 清单 


12.14 BT» 
代码 清单 12.14 S3C6410RTC 了 驱动 的 rte_class_ops 实 例 与 RTC 注 册 


EEC Const SCEUCE tec Class Ops. 2950 DLOODS = 4 
2 SoC ptc ge C Ine; 

3. Set LIne S00 rtc Sebtimes, 

4 stead alarm poc Etc geralarmy 

J Sec alarm SoC PUG SOeLalarm, 

6 
7 
8 


JpEOC Boc PLC Proc, 
Alarm irg enable = Soc ice. Sera, 
); 
9 

LDSDHqEIOC Int S2€ rbo probe (struct platform device *paoev) 
1e 
d s 
13 TLO = devm rtc device register(spdev-^dev, "S3SO", te OC EUtCODS, 
14 THIS MODULE); 


drivers/rtc/rtc-dev.c EJ, Ae Wil FA HY drivers/rtc/interface.c SE RTCTA Ù RAH 25-T- HU file operations H3 
open ©) ~ release O . BEBO E ELEST [8] S AB IR] Bap n Y REN SEB, ARASH ERI2.1548] RC SEA; RTC 
A zs] H3 SIS UJ] callback Hy Ef e 


代码 清单 12.1$ _RTIC 核 心 层 “转发 ”到 搬 层 RTC 驱 动 callback 


Lotario InG TIO Wey OPen a uat node ”tno SLIC ile: Se) 
ZA 

3 

4 err = ops->open ops->open(rtc->dev.parent) : 0; 

elas 

6 } 

7 

ootate SNe eC read. Time. (surucl EC: CS6viCe. “ree, OC UCE Tue time Lm) 
2d 
10 int err; 
LE AE eee SOR Ss) 


17 err = -ENODEV; 

to LSS Lt (EGO OPS SITES CENE) 
14 err = —EINVAL; 

下 

1:5: Tecur ears 

1^3 

18 


lo923nt Tie cedo tim Erne ILC device: "pPbOR; PLU UCG TEC tine ^) 
201 
21 int err; 


22 

29 CL =m e LOCK ICO p I Lener EG=>008 lock); 
24 if (err) 

20 POUUENM SOT. 

20 

ZI e rue. DUO ead: ime bo. DB 


Zo Imutex unlook(sruto--Opse LOCEN? 
ZO. CERIN err 

30] 

31. 

SZ INE. EEC. Sel TIMENS CrO eC. device EEO GEA fee. Gime ^L) 
334d 

34 

2D 

DO aT (I$ Ops) 

S err = -ENODEV; 

90 Clee UI ZIUOSCODE-SSet Ime) 


39 err PECORA Ops s-seb Lime (rl C= cde vVJparenby. com) 
A = aged Ss 

41 return err; 

42} 

43 

Statre Jong. ruc dev :xoctlis5ruocb file rite, 
45 unsigned int cmd, unsigned long arg) 

4o{ 

47 

48 

49 Case RIO URD TIME 

50 mutex unlock (¢ruc=Sops: JOCK); 

e 

52 err = Teo read LimMe (ete Em) 

Do IT (err < 0) 

54 few cn err, 

sre 

56 IL COPY to user(uarOg;.etm.-ssrzeotttm)») 
D err = -EFAULT; 

58 rperurm err; 

59 

60: case RIC SEI TIME: 

61 mutex unlock (értc-2ops: tock); 

62 

63 it (Copy Prom useritetm, Uarg, SrczeofrTtum)) 
64 ein -BRAULT; 

65 

66 recur n- VEC Set TIMET Ce de 

67 


68) 


12.3.4 Framebuffer IKZ} 


Framebuffer OMF) 是 Linux 系 统 为 显示 设备 所 供 的 一 个 接口 ， 它 将 显示 缓冲 区 抽象 ， 屏 菩 图 像 便 
件 的 压 屋 大 寞 ， 人 允许 上 层 应 用 程序 在 图 形 模 式 下 直接 对 显示 缕 冲 区 进行 谈 写 操作 。 对 于 巾 绥 冲 设 备 而 言 ， 
只 要 在 显示 绥 冲 区 中 与 显示 点 对 应 的 区 域内 写 入 闫 色 值 ， 对 应 的 磊 色 会 日 动 在 屏 贤 上 显示 。 


图 12.8 所 示 为 Linux 眉 缓冲 设备 驱动 的 主要 结构 ， 归 缓 冲 设 备 提 供给 用 户 空 间 的 他 e_operations 结 构 体 
Fidrivers/video/fbdev/core/fbmem.cH" HJfile operations 提 供 ， 而 特定 帆 绥 神 设 备 fb info 结 构 体 的 注册、 注销 
以 及 其 中 成 员 的 维护 ， 尤 其 是 tb_ops 中 成 员 函 数 的 实现 则 由 对 应 的 xxxfb.c 文 件 实现 ，fb_ops 中 的 成 员 函 数 


最 终 会 操作 LCD 控 制 其 硬件 寄存 器 。 








: m 注册 注销 l 、 
register_framebuffer () unregister_framebuffer 0 


fb_check_var () fb set par() 





xxxfb.c 





内 核 空间 


硬件 LCD 控制 器 


图 12.8 ”Linux 巾 绥 冲 设备 驱动 的 程序 结构 





多 数 显 存 的 操作 方法 都 是 规 沁 的 ， 可 以 按照 像 系 点 格式 的 要 求 顺序 写 帧 缓冲 区 。 但 是 有 少量 LCD 的 显 
存 写法 可 能 比较 特殊 ， 这 时 候 ， 在 核心 层 drivers/video/fbdewcore/fbmem.c 实 现 的 也 write ©) 中 ， 实 际 上 可 
以 给 确 层 提供 一 个 重 写 目 己 的 机 会 ， 如 代码 清单 12.16 所 示 。 


代码 清单 12.16 LCD 的 framebuffer write () Ki% 


LOSDALIC SEX T 
ZLD WEILeC(QStrucut file 5f1196, Conse Char . uger *bur, Size L COUN; Lott t ^Dpos) 


4 unsigned long p = *ppos; 

O9 Seroct Ib inio "INEO = EXE SD IDnrotbobe 
G ue^burrer, “sro? 

7 US... romem “dsr; 

8 


int. Q, «ont = 0, err = Us 

2 unsigned long total S126; 
10 
LL at (intro |] izufo-screen base) 
Lz return -ENODEV; 
1: 
14 if (info->state !- FBINFO STATE RUNNING) 
15 return —-EPERM; 
16 
Lf ar (100s bOps=> rb WELLE) 
18 return 2nto--rDbops- fb Wiitel(linto bul; Count, ppos) 7 
19 
20 ‘COtal. Size = 1intfo-^2screen 61767 
21 
22 wr (COLAL gize == 0) 
23 LOLAL Size = GDEO- 2 eonen- Len; 


Zo doe CO. Dota 729) 


26 return -EFBIG; 

2T 

20.9 OOUnG. c" Lobtel 12e) 4 

29 err — -EFBIG; 

30 count e CoO size, 

Sub. 3 

32 

239 LE “(Count F p EOte size): 4q 

34 if (lerr) 

39 err = -ENOSPC; 

36 

37 Count = Oval Size = py 

3e. t0 

39 

40°" putter = kmalloct(t(oount -> PAGE SIAE) PAGE SIZE +1 “Count; 
41 GFP KERNEL) > 

42 if (!buffer) 

43 return -ENOMEM; 

44 

Ao dst — (ue omen *) (nfo Screen base + p) 
46 

AT XQ q2DnloO-LDODS-c-^rD sync) 

48 I Ot OO sO. SYN (Lt) 
49 

50 while (count) { 

5d C= (count > PAGE SIZE) PAGE SLZE Count; 
5 sro = Duffer; 

59 

54 Ip (COD BPomgseroSros JE EE Cu 
59 err = -EFAULT; 

56 break; 

Sul } 

OU 

59 rb memopy LORDQOSU- SEO. iC); 
60 dst += c; 

61 sro A= Q: 

62 "DOS FS CF 

63 buf += c; 

64 Gn seus 

65 count == xc 

66 |] 

67 

68 kfree (buffer); 

69 

70 return (cnt) Ond 4 erry 

71} 


"R17-18112& — 1 To: IK EELCDAH CH KM E CRETA RAA, WRA, HRWIKI; WR 
UH. HP EREE EF SIAME SER ALS AF 9K LCD 


12.3.5 终端 设备 驱动 


在 Linux 系 统 中 ， 终 新 是 一 种 字符 型 设备 ， 它 有 多 种 类 型 ， 通 第 使 用 tty (Teletype) 来 简称 各 种 类 型 的 
终 曾 设备 。 对 于 骸 入 式 系 统 而 言 ， 最 普 表 采用 的 是 UART (Universal Asynchronous Receiver/Transmitter) FB 
行 端 口 ， 日 常生 活 中 简称 串口 。 


Linux 内 核 中 tty 的 层次 结构 如 图 12.9 所 示 ， 它 包含 tty 核 心 tty io.c、tty 线 路 规程 n ttyc〈 实 现 N_TTY 线 路 
规程 》 和 tty 驱 动 实例 xxx_tty.c，tty 线 路 规程 的 工作 是 以 特殊 的 方式 格式 化 从 一 个 用 户 或 者 便 件 收 到 的 数 
据 ， 这 种 格 陈 化 前 第 采用 一 个 协议 转换 的 形式 。 


tty io.c 本 喘 是 一 个 标准 的 字符 设备 张 动 ， 它 对 上 有 字符 设备 的 职责 ， 实 现 file_ operations 成 员 函 数 。 但 
是 tty 核 心 层 对 下 叉 定 义 了 tty_driver 的 架构 ， 这 样 tty 设 备 驱动 的 主体 工作 束 变 成 了 填充 tty_driver 结 构 体 中 的 
成 员 ， 实 现 其 中 的 tty operations 的 成 员 函 数 ， 而 不 再 是 去 实现 fe operations 这 一 级 的 工作 。tty_driver 结 构 
体 和 tty_operations 的 定义 分 列 如 代码 清 蛙 12.17 和 12.18 所 示 。 


fs/char dev.c 


注册 字符 设备 
struct file operations 












tty 10.C 








tty register driver() 
struct tty driver 


| XXX tty.c | 


O0000 
O000 


12.9 Linux 内 核 中 tty 的 层次 结构 


tty register Idisc() 
struct tty disc 


n tty.c 


代码 清单 12.17 tty driver 结构 体 


lorro- tty driver 4 


2 int magic; /* Magic number for this structure */ 
3 struct kref kref; /* Reference management */ 
4 struct Cdev *Ccdevs; 
E struct module *owner; 
6 const char *driver name; 
/ COIISE Char *name; 
8 male name base; /* offset of printed name */ 
9 int major; /* major device number */ 
dip int minor Scare, /* start of minor device number */ 
11 unsigned int num; /* number of devices allocated */ 
12 short type; |t Lype Of Thy driver */ 
13 short subtype; /*® Subtype OF tty driver ~ 
14 struct KLermios nic Lermios; /* Iñitial termios ~/ 
15 unsigned long flags; /* tty driver flags */ 
LG struct proc dir entry *proc entry; |* proc fs entry */ 
d Struct tly driver *othér; /* Only used for the PTY driver */ 
18 
19 is 
20 * Pointer to the tty data structures 
21 A 
2 SLeEwCt LUCY SLruct “try 
2 SUrUCE LLY porc ** ports; 
24 struct ktermios **termios; 
25 VOLO. “Oriver orale; 
26 
27 J> 
28 * Driver methods 
29 a 
30 


FL Const SULUCy LCY Operations Tops} 


92 


Cree ee 


代码 清单 12.18 


Seruoe, Llot Meac ty drryvers, 


tty operations 结 构 体 


Lgtruct tby operations 


D Ser UOT “ey Ig Wu Lookup) (EU UlyCriver TUL er 

3 struct .THO inode, imt dx); 
站 
5 
G- T (Open) (Orr rut Tey Strues * Ley... Slruce tile = wills 

VOLG (TODOS) (O Truet Tey tne * “buy, struc’ tile ERLID) 

GO. VOud d *SDUCgdOWn) (etreucCt TEY Sere FELY)? 

9 MOL, uvclesnmup)dscruot tly  Seruce. "CDU 

LO Snc 人 

t1 Const Unsigned char buf; int count) > 

12. Int (人 
二 

14 int EN 

L9 ne mendaro nm DULES (serues hy CrO DD; 

LO ine (COOOL AS ETUE: TE S EIOS 

Ly unsigned int cmd, unsigned long arg); 

ie. Long: (Compan, TOCUL (Strücuc. tty Strucb Cty; 

1 unsigned int cmd, unsigned long arg); 
ZU MOL. ‘(Ser cLermros)tsStruogsk ey SDPuooó LV. PLECE RUOSCHmros? Gio. 
2 -VOL (Enrole) (Surockt thy Sree ™ ThY,.> 
Z2 WOO. TA Unen OTE C) (St Ely St Buy 
Za VOLG “Ce SOO) SLICE ey SIIUCL ey); 
24 MOLG (CoStar) (etryuct Thy Struet Scy); 
20 NOL Nangup) CSeruce: Ty SC UCL Key 
RE 
Re 
2 
ZE 
Sor (send: xchar) (Serger wty Soruet ty, Char ica); 
Si Ak: (ELOCMNMGSt (SLPUOB DEY struct SEELY)? 
32» nb XDOPROCUSet) T9 65 ENGL uy SUIueb. Ley, 
33 unsigned int set, unsigned int clear); 
人 
人 
站 
37 struct Ser tel rocounver OT UCE AERECO, 


38rifdef CONFIG CONSOLE POLL 


29 Ut. POLL TALLIA Cruet xy driver TOFEL Oir unu Janey Char TOP LONS) 
a0: ane POLL Get Char) (Struc tey- driver “driver, eme Jane) 7 

AL wocd (*5poll put cheristsuct Etty Oriver “driveri; nt bine, Ghar el); 
42#endif 


43> (CONS SULUCL TELS: cOperbsetronme “proc Ops; 
Ad 


如 图 12.10 所 示 ，tty 设 备 发 送 数 据 的 流程 为 : tty 核 心 从 一 个 用 户 获 取 将 要 发 送 给 一 个 tty 设 备 的 数据 ， 
tty 核 心 将 数据 传递 给 tty 线 路 规程 驱动 ， 接 看 数据 侦 传递 到 tty 驱 动 ，tty 驱 动 将 数据 转换 为 可 以 友 壕 给 便 件 的 
格式 。 接 收 数 据 的 流程 为 :从 tty 人 硬件 接收 到 的 数据 回 上 交 给 tty 驱 动 ， 接 着 进入 tty 线 路 规程 驱动 ， 再 进入 tty 
EU. FEI BETS AAPA RR. 


HEN 
write() read ) 
\ \ 


\ 
A 


\ 
ay 





tty write() tty read() 


线路 规程 Y | 
驱动 Idisc.write() 





Idisc.read() 


tty 缓 冲 区 | Idisc.receive buf() 
EN 





ty 驱动 = 


driver.write( ) 


tty flip buffer push() 


flip buffer T 


= 





-— 数据 流 “一 一， 函数 调用 


图 12.10 tty 设 备 发 送 、 接 收 数据 流 的 流程 


代码 清单 12.18 中 第 10 行 的 tty_ driver 操作 集 tty operations 的 成 员 函 数 write O 函数 接收 3 个 参数 : 
tty struct、 发 运 数 据 指 针 及 要 发 计 的 字 节 数 。 访 也 数 是 被 fle_operations 的 write〈) 成 员 函 数 间 接触 友 调 用 
的 。 从 接收 角度 看 ，tty 驱 动 一 般 收 到 字符 后 会 通过 tty flip buffer push O 将 接收 缓冲 区 推 到 线路 规程 。 


尽管 一 个 特定 的 底层 UART 设 备 驱 动 完全 可 以 遵循 上 述 tty driver 的 方法 来 设计 ， 即 定义 tty driver 并 实 
现 tty_operations 中 的 成 员 函 数 ， 但 是 鉴于 串口 之 间 的 共性 ，Linux 考 碟 在 文件 drivers/ttyserial/serial _ core.c 中 
实现 了 UART 设 备 的 通用 tty 驱 动 层 〈 我 们 可 以 称 其 为 串口 核心 技 ) 。 这 样 ，UART 驱 动 的 主要 任务 束 进 一 
步 演 变 成 了 实现 serial-core.c 中 定义 的 一 组 uart xxx 接口 而 不 是 tty xxx 接 口 ， 如 图 12.11 所 示 。 因 此 ， 按 照 面 
TARA AE, By RU Atty driver 是 字符 设备 的 汉化 、serial-core 是 tty driver 的 泛 化 ， 而 具体 的 串口 驱动 叉 


是 Serial-core 的 泛 化 。 





fs/char_dev.c <> 


注册 字符 设备 4 


struct file operations 


tty_10.C 
tty_register“driver () \ | ^ tty_register_Idisc () 
struct tty_driver | / struct tty. disc 
/ | / 
serial_core.c/ | / nitty.c 
/ \ f j 


f uart. register. driver () 
/ struct uart ops 





f 
xxx_uart.c / 


i 


图 12.11 串口 核心 层 


串口 核心 层 又 定义 了 新 的 uart_driver 结 构 体 和 其 操作 集 uart ops. — T JE BJUARTZB ri e G1) E UOI 


过 uart register driver © 注册 一 个 uart driver 而 不 是 tty driver， 代 人 码 清单 12.19 给 出 了 uart driver 的 定义 。 


代码 清单 12.19 uart driver 结构 体 


LSLSUGL Uart Craver 4 
2 struct module xowner; 
3 const char ^drriver name; 


4 CONS. “Ghar *dev_name; 

5 int major; 

6 ENE MINOT? 

7 int In 

8 struct console “Cons; 

9 
10 j^ 
NU * these are private; the low level driver should not 
12 * touch these; they should be initialised to NULL 
13 A 
L4 SLIUGL Uart stave “Slate, 
TO Cruce Ley OTLET “ty Cie EIS; 
16}; 


uart_driver 结 构 体 在 本 质 上 是 派生 上 自 uart_driver 结 构 体 ， 因 此 ， 它 的 第 15 行 也 包含 了 一 个 tty_driver 结 构 
体 成 员 。tty_operations 在 UART 这 个 层面 上 也 被 进一步 泛 化 为 了 uart ops， 其 定义 如 代码 清单 12.20 所 示 。 


代码 清单 12.20 uart ops 结 构 体 


VSCO URP ODS- f 


2 unsigned int (“tx empty) (SULUCE. Uart DOrt ©)? 
3S VOLXd ("SOL motrl)(sLruceck uat portu ^. -unscgued Int metri); 
4 unsigned int (“get NHOUCII)CSUEUOCL Uart Port 7); 
B. yolg (SCOP (Cx) (Cruet Vart ‘pore. "vy. 
6 void (State. EX/ Ware Dore. A7 
7 void (C EDTOLUIe)(SLtruct Hort Dort "yx 
G CADO (^unLhroUpDle)TsSb5uecc Ua tl port. ) 7 
9 void (* send xchar) (struct uart porc ?yy Char ch; 
10 void ("STOD x) (trvuet uari pore *) 7 
le ABO (“Tenable ms) (Cruce Uart port *) 7 
LZ. oOLld break :Clly (Seruce Uart pobre 7 TAL Qu 
l3. int ("Starbtup)Tstrfucb-uarfo porc Wy 
14 void (Cohttoowl)qstruegt Wark pose T7 
15: vord (~ Pius butter) (Sl rice: ert "port €y 
16 void (sol USrtm1 Os) TICE E Mare post ”7 Struct KEermos “new, 
LL. struct .ktermros *old); 
19 vord (^set OLSe) Croce: Wart. pork Ty SDIUOL ktermos. T7 
19 void (FPS CEUC Uart port 5, unsrogned TiL state 
20 unsigned int oldstate); 
Zl 
22. CONSE Char aC EV Oe) (Secu Uart POLC 5) 
23 
24 void (^relodse porbitetrdoct-udbt pork. ^» 
20 
26 int (^reqguesc POC) OCOC dSrcport 2 
ZW OVO. (5conENg DOr) lsuet Tart pore. Fy: DIS 
28 Inet (5 verlrv por j4SstLuci uart Ore. ty ig ge Seria suruct: 5) 
29 int MIOCENO Cruet USIL post * unslgned gt, uünsxgned Long); 


30#ifdef CONFIG CONSOLE POLL 

Sale gru (“POLL mit) (Cnct dert pork “J7 

32 MOI (COOL puu-ocuer)estraocb uas porc ty 
Bion tie (^poll-gec char) (Steuer Ue por. *).7 
344endif 

35}; 


unsigned char); 


由 于 drivers/tty/serial/serial core.c 是 一 个 tty driver， 因 此 在 serial core.c 中 ， 存 在 一 个 tty_ operations 的 实 
例 ， 这 个 实例 的 成 员 函 数 会 进一步 调用 struct uart ops 的 成 员 函 数 ， 这 样 束 把 他 e operations 里 的 成 员 函 数 、 
tty operations EX, v3 P ZU Huart ops 的 成 员 函 数 串 起 来 了 。 


12.3.6 misc £& Jl zjJ 


由 于 Linux 张 动 倾 癌 于 分 层 设 计 ， 所 以 各 个 有 具体 的 设备 都 可 以 找到 和 它 归属 的 类 型 ， 从 而 套 到 它 相 应 的 
染 构 里 面 去 ， 并 且 只 需要 实现 最 确 层 的 那 一 部 分 。 但 是 ， 也 有 部 分 类 似 globalmem、globalfifo 的 字符 设 
备 ， 人 确实 不 知道 它 属 于 什么 类 型 ， 我 们 一 般 推 荐 大 家 采用 miscdevice 杠 架 结 构 。miscdevice 本 质 上 也 是 字符 
设备 ， 只 是 在 miscdevice 核 心 层 的 misce_init〈() 函数 中 ， 通 过 register_chrdev (MISC MAJOR, "misc", 
&misc fops) 注册 了 字符 设备 ， 而 具体 miscdevice 实 例 调 用 misc register O 的 时 候 又 日 动 完 成 了 


device create () ~ RAIRE SNE e 


miscdevicel] 3: rø 5 ie EGE HY, MISC MAJOR 定义 为 10， 在 Linux 内 核 中 ， 大 概 可 以 找到 200 多 处 使 
用 miscdevice 杠 染 结构 的 驱动 。 


miscdevice 结 构 体 的 定义 如 代码 清单 12.21 所 示 ， 在 它 的 第 4 行 ， 指 癌 了 一 个 fle operations 的 结构 体 。 
miscdevice 结 构 体 内 file operations 中 的 成 员 函 数 实际 上 是 由 drivers/char/misc.c 中 misc 驱 动 核心 层 的 misc fops 
成 员 函 数 间 接 调 用 的 ， 比 如 misc_ open O 就 会 间接 调用 底层 注册 的 miscdevice 的 fops->open。 


代码 清单 12.21 miscdevice 结 构 体 


lstruct miscdevice | 

int Minor? 

const char *name; 

Const EU Elle Operations “Lops; 
Struct. dust. head Lisl; 

struct device *parent; 

Struct device. ^Lthis device; 

const char *nodename; 

umode t mode; 


OW OoONAAD OB CO NWN 


上 一 
一 一 
BE 


如 果 上 述 代 码 第 2 行 的 minor 为 MISC DYNAMIC MINOR，miscdevice 核 心 层 会 自动 找 一 个 空闲 的 次 设 


备 写 ， 人 否则 用 minor 指 定 的 次 设备 写 。 第 3 行 的 name 是 设备 的 名 称 。 
miscdevice 张 动 的 注册 和 注销 分 别 用 下 面 两 个 API: 


int misc register(struct miscdevazce * mise); 
Ine. Misc deregrster(sobLruct Miscdevice "misc 


此 miscdevice 驱 动 的 一 般 结 构 形 如 : 


StaLioc CONSE Struct Tile Operacions xx. Tops = 1d 
Jünlocked LOCUL = Axx. 20Ctl, 
. mmap = xxx mmap, 


); 

Static SCtEUCLD Jmiscdevice xxx dev = 1 
.minor = MISC DYNAMIC MINOR, 
.name "apxc s, 
LODS &XxXx fops 


} . 


Static int. Enrt xxx Toc (void) 


pe EN 
return Misc register (cxxx dev); 


在 调用 misc register (&xxx dev) Bj, ZRA ARS H ay device create €? ， 而 device create () 
会 以 xxx dev 作 为 drvdata 参 数 。 其 次 ， 在 miscdevice 核 心 层 misce open O 函数 的 帮助 下 ， 在 file operations 的 
AM bt PRIA, xxx _ dev 会 目 动 成 为 fle 的 private data (misc open 会 完成 fle->private _ data 的 赋值 操作 ) 。 


如 末 我 们 用 面 问 对 象 的 封 闻 思想 把 一 个 设备 的 属性 、 目 旋 锁 、 互 斥 体 、 等 竺 队列 、miscdevice 等 封 净 
在 一 个 结构 体 里 面 : 


StrPUGLt XXX dev 1 
unsigned int version; 
unsigned int size; 
cspinlock t. Lock; 


struct miscdevice miscdev; 


在 file operations] EV, i EZ rp, Win Aw container of O 和 file->private data 反 推出 xxx_ dev 的 实例 。 


ee 


{ 
Se 
SULIUCL xxx dev, miscdev); 


下 面 我 们 把 globalfifo 驱 动 改 造成 基于 platform driver 且 采用 miscdevice 框 架 的 结构 体 。 首 先 这 个 新 的 驱 
动 杰 成 了 要 通过 platform _ driver 的 probe〈) 函数 来 初 巡 化， 其 炊 不 再 直接 及 用 register chrdev () 、 
cdev add O 之 美的 原始 API， 而 采用 miscdevice 的 注册 方法 。 人 代码 清单 12.22 列 出 了 新 的 globalfifo 驱 动 相 对 
于 第 9 章 globalfifo 驱 动 变 化 的 部 分 。 


代码 清单 12.22 ”新 的 globalfifo 驱 动 相对 于 第 9 草 globalfifo 驱 动 变 化 的 部 分 


LSErucboobobalrtrrto dev. a 


2 

3 struct miscdevice miscdev; 

4}; 

S 
和 
71 

8 scrucc Globaliirro dey ^dev = container of(CIlibp--prrvate data; 
9 curuct olobalLiro dev, miscdev)s 
10 
EIJ 
L2 
L9Ssbatlo. Long Clobalrito TOGLB(SLPUOCE tile. TLLID, Un roneo ink sme 
14 unsigned long arg) 

1o 

T6 scruoct gLobaebbrro dey dev -— container or private data, 
Ty Struct olobalbtrto dev, mrscdev)s 

18 

L9 
20 
ZloudLre-unesgnedc Lae Glopa riro polie Crac fale “Lilo, POLL table: Ww wart) 
1 
29 suruco Global Iio- dev “dey = CONTAINS -O1-( fi lo=>privalre Gata, 
24 suructogloDelLito GeV -MiScdey).; 
25 


Z y 


Zopa IO SoLlze © globali reo: regado CIUC tile ~ilo; har der *"DULl, 
2 Size Lo COunt, LOr uu BEDS) 

oUt 

4 Struct Globalt: dey: 09V container orPTirqclp-cprrvateodate 
32 SULUCE. GLODALO Sev. MICAS]? 

S 

34} 

DS 

SOStabie: SOIZe Global Taro wEeiee(Geruct “ike Stil, conse Char ..user. “Duty 
Sd S129 5. County. OLE 5CBPOS) 

301 

39 Surucv OL to "dey dev = Container: OIL ILpe private data, 
40 Struct oOlobalflro. dev, miseédev); 

41 

42} 

43 

4Istatto rnt globalrtrro probe(struct platform device *pdey) 
45 { 

46 SUruce: OlLobaltatroicgey. Gly 

47 int ret; 

48 

49 ol = devi kaallooc(tepdevesdev, S21200L(^gl), GFP KERNEL) 7 
SD if (!gl) 

oL return -ENOMEM; 

a2 gl->miscdev.minor = MISC DYNAMIC MINOR; 

o gl->miscdev.name = "globalfifo"; 

54 gl-*mrscdev.rope9 = Ssglobalriro Tops; 

S 

56 Nütex snibttsegl-omutex 

5 init waitqueue head(&gl->r wait); 

58 init waitqueue head(&gl-»w wait); 

59 pratform set drvdabtaipoev, gl); 

60 

61 rel. = Mise reogisterisgl- mriscdev); 

62 if (ret < Q) 

Ge goto err 

64 NEU 

65 return 0; 

66err: 

67 return ret; 

68 } 

69 

TÜSLERLIC En GGL Oba LELEO renove (S rut platborm device, "vpoev) 
71{ 

T2 ctruct-wglobaltlito dey *9l = Placi orm geu-drvdaca(pdewv).; 
Ta Misc deregrister(sgl-omiscdev); 

74 return: 0; 

15) 

76 

JIo ae -SCLUCE Placrorm.criver GODAL ITO- driver = 4 

358 .driver = { 

ER .name = "globalfifo", 

80 .owner = THIS MODULE, 

SA by 

82 prope c Globall rio probe; 

83 «remove = -GlobalT i ©. remove, 

84}; 


oomouule platform usriver(globelitrro driver) 


在 上 述 代码 中 ，file_operations 的 各 个 成 员 函 数 部 使 用 container of €) REK private data, 256117 Œ 
platform driver 的 probe〈) 函数 中 完成 了 miscdev 的 注册 ， 而 在 remove〈) 函数 中 使 用 misc deregister O) 完 
成 了 miscdev 的 注销 。 


上 述 代码 也 改 用 了 platform device 和 platform driver 的 体系 结构 。 我 们 增加 了 一 个 模块 来 完成 
platform device 的 注册 ， 在 模块 初始 化 的 时 候 通 过 platform device alloc () 和 platform device add O 分 配 
JfFZlplatform device， 而 在 模块 番 载 的 时 候 则 通过 platform device unregister () 注销 platform device, 4 
代码 清单 12.23 所 示 。 


代码 清单 12.23 ”与 globalfifo 对 应 的 platform device 的 注册 和 注销 


kotari SEE plattornrm. device “oO lLobali pro. Pdv, 


2 


中 

| 

9 int ret; 

6 

J gQlobdbtirpopdew.cpLoauvtorm udevxce clloot'gLoDolrtTTfOo*,--Lr 
8 下 

9 return -ENOMEM; 

10 

11 ret — platform device add(globalfifo pdev); 
12 if (ret) { 

no platform device pubt(globDalriiro pdev); 
14 return ret; 

LS } 

16 

ey return 0; 

18 

ES 
20moduüle rnzxt(glooalfrifodev inrtj; 
zl 
ZO Stabe. vos . exe globelbritodev oxi (ord: 
zx 
24 platbormodevrce "unregioter(globDalrsro pdev)s 
20 


Zomodule.exit(globalPritodev exit); 


ZK-BilB E /home/baohua/develop/training/kernel/drivers/globalfifo/ch12 & 75 J globalfifo driver 和 
device 端 的 两 个 模块 。 在 该 目录 运行 make， 会 生成 两 个 模块 : globalfifo.ko 和 globalfifo-dev.ko， 把 
globalfifo.ko 和 globalfifo-devko 先 后 insmod， 会 导致 platform driverfllplatform device 的 匹配 ， 
globalfifo probe () 会 执行 ，/dewglobalfifo 贡 点 会 目 动 生成 ， 默 认 情 况 下 需要 root 权 限 来 访 
问 /dev/globalfifo。 


如 朵 此 后 我 们 rmmod globalfifo-dev.ko， 则 会 寻 狼 platform _ driver 的 remove〈) Amps ae, BV 
globalfifo remove () PRZIUETA T, /dev/globalfifo Ti AZ E zB A e 


12.3.7 ”驱动 核心 层 
分 析 了 上 述 多 个 实例 ， 我 们 可 以 归纳 出 核心 层 肩负 的 3 大 职责 : 
1) 对 上 提供 接口 。file _ operations 的 读 、 写 、ioctl 都 被 中 间 层 搞定 ， 各 种 IO 模型 也 被 处 理 掉 了 。 
2) 中 间 层 实现 通用 逻辑 。 可 以 被 底层 各 种 实例 共享 的 代码 都 被 中 间 层 搞定 ， 避 免 底 层 重 复 实现 。 


3) 对 下 定义 框架 。 底 层 的 驱动 不 再 需要 关心 Linux 内 核 VFS 的 接口 和 各 种 可 能 的 MO 模型 ， 而 只 需 处 理 
与 具体 硬件 相关 的 访问 。 


这 种 分 层 有 了 时候 还 不 是 两 层 ， 可 以 有 更 多 层 ， 在 软件 上 呈现 为 面 同 对 象 里 类 继承 和 多 态 的 状态 。 上 一 
节 介 绍 的 终端 设备 驱动 ， 在 软件 层次 上 类 似 图 12.12 的 效果 。 


—Y 








- file operations : ops 


iT 
LN 


tty driver 


- tty operations : ops 





uart driver 


图 12.12 ttySko e EZ A. 


12.4 ”主机 驱动 与 外 设 驱 动 分 离 的 设计 思想 
12.4.1 主机 驱动 与 外 设 驱 动 分 离 


Linux 中 的 SPI、FC、USB 等 子 系统 都 利用 了 典型 的 把 主机 驱动 和 外 设 驱 动 分 离 的 想法 ， 让 主机 端 只 
负责 产生 总 线 上 的 传输 波形 ， 而 外 设 闪 只 是 通过 标准 的 API 来 让 主机 姗 以 适当 的 六 形 访问 目 刁 。 因 此 这 里 
面 束 涉及 了 4 个 软件 模块 : 


1) 主机 端的 驱动 。 根 据 具 体 的 FCC、SPI、USB 等 控制 器 的 硬件 手册 ， 操 作 有 具体 的 FCC、SPI、USB 等 
控制 器 ， 产 生 总 线 的 各 种 波形 。 


2) 连接 主机 和 外 设 的 纽 市 。 外 设 个 且 接 调用 主机 站 的 驱动 来 产生 波形 ， 而 是 调 一 个 标准 有 的 API。 由 
这 个 标准 的 API 把 这 个 议 形 的 传输 请 求 间 搂 “ 转 灾 ” 纵 了 有 基体 的 主机 靖 张 动 。 当 然 ， 在 这 里 ， 节 好 把 关于 六 
形 的 朱 述 也 以 未 种 数据 结构 标准 化 。 


3) 外 设 端的 驱动 。 外 设 接 在 CC、SPI、USB 这 样 的 总 线 上 ， 但 是 它们 本 身 可 以 是 触摸 屏 、 网 卡 、 声 
卡 或 者 任意 一 种 类 型 的 设备 。 我 们 在 相关 的 i2c driver. spi driver. usb driver 这 种 xxx driver 的 probe ©) pki 
数 中 去 注册 它 具体 的 类 型 。 当 这 些 外 设 要 求 FC、SPI、USB 等 去 访问 它 的 时 候 ， 它 调用 “连接 主机 和 外 设 
HN ZA tir BEER AN] PN EEA PI 

4) MAI. MAIS FE OR FID UM ie Ue] BRIN, “ERAS SRR”. Hci FLA 


ZASP il Zs AUS ASPA PU, ASIC ERE EE LAS PARKA, BER EEN LN TEE, TEAS xm 
Natit, ROR FRAC TIE CE ope Ay HE fe arch/arm/mach-xxx FP H ek arch/arm/boot/dts F [Al . 


APART RER tt Bi, TEE RAE CES EME EARME. DRERI FR TU 
2m; BERRA TNS. TELKML HH, APTS ERA, LY S ii “out of place". 


“es 


Linux EIGEN Ber FI, FE HEAR ALAN ACE I AS EM 4) ER, RET RA TS C 
Br. BEN BOR Non EER”, MEAL SE LM A AR, ESSE HEIR OREN, AVANTE EA et AN EGET EX 
WW, TELE C Rr EBB TNI): 站 在 外 人 设 咒 想 一 想 ， 它 也 变 得 一 里 轻 松 ， 因 为 它 根本 束 不 十 
要 知 违 目 己 接 在 主机 的 哪个 控制 融 上 ， 根 本 不 关心 对 方 古 张 和 三、 全 四 、 王 五 偿 古 六 麻子 ; VATE AS 
角度 上 ， 你 做 了 一 个 板子 ， 目 己 目 然 要 知 进 谁 接 在 谁 上 面 了 。 


下 面 以 SPI 子 系统 为 例 来 展开 说 明 ， 后 续 章 节 的 FC、USB 等 是 类 似 的 。 


12.4.2 Linux SPI 主 机 和 设备 驱动 


在 Linux 中 ， 用 代码 清单 12.24 的 Spi master 纺 构 体 来 搞 述 一 个 SPI 主 机 控制 硕 驱 动 ， 其 主要 成 员 是 主机 
控制 器 的 序号 (系统 中 可 能 存在 多 个 SPI 主 机 控制 器 〉 、 片 选 数 量 、SPI 模 式 、 时 钟 设置 用 到 的 和 数据 传输 
用 到 的 函数 等 。 


代码 清单 12.24 spi master 结 构 体 


LSLrucb Spi Master 7 


2 struct devicedev; 
3 
4 slo bus num; 
S 
6 /* chipselects will be integral to many controllers; some others 
] * might use board-specific GPIOs. 
8 %7 
2. a6 num Chipselecit; 
IRE 
IT 
12 
13 /* limits on transfer speed */ 
14 u32 min speed hz; 
lo: 22 maz spoed nz; 
16 
1.3 
18 
19 /* Setup mode and clock, etc (spi driver may call many times). 
20. * 


21 * IMPORTANT: this may be called when transfers to another 
2 * device are active. DO NOT UPDATE SHARED REGISTERS in ways 
23 * which could break those transfers. 


24 ay 

295- nt (^setup) (Struct PPL devices “opi? 

26 

27 /* bidirectional bulk transfers 

20 * 

29 * + The transfer() method may not sleep; its main role is 

30. C just to add the message to the queue. 

31 * + For now there's no remove-from-queue operation, or 

Sd A any other request management 

239: * + TO a given PPL device, Message queuerng 1s pure ifo 

34 * 

35 * + The master's main job is to process its message queue, 
S. selecting a chip then transferring data 

37 * + If there are multiple spi device children, the i/o queue 
23g * arbitration algorithm is unspecified (round robin, fifo, 
39 08S priority, reservations, preemption, etc) 

40 * 

41 * + Chipselect stays active during the entire message 

42 * (unless modriried by Spi Cranster.s.cs. Change = 0). 

43 * + The message transfers use clock and SPI mode parameters 
44 * previously established by setup() for this device 

45 */ 

46 int (PUransicr) (Struce HL device “spi, 

4] SLIUCE spi message mesg)? 

48 

49 /* called on release() to free memory provided by Spi Master * / 
DU void (^ocleanap)istruüct Spi. Oevice "*Spi); 

g1 

34 

Oo words 

54 /* 

55 * These hooks are for drivers that use a generic implementation 
oo * OF tranerer one Message() provied Dy the core. 

5 m 


96 world ("Set Cs) (Struce Spi device *spi, bool enable), 
99 amt. (^transrer One) (Suruce Sou maeter *Master, StPHct Spa device Spi 


60 SELUCE Spr brauster *"Etranster) 
61. 

02 J/* gpio Chip select */ 

63 nE ACS. UDIOS 

64 

65 


分 配 、 注 册 和 注销 SPI 主 机 的 API 由 SPI 核 心 提供 


SULUCE: Spl Master * soi valloe. master (suruck. device “Nose, Unstoned: Se); 
Lie SOL ..egaster Nascer(sbruct Spa Master. cSmasuten) 
VOLO “SPL UNTeGLSter Masver(StULuct Spr HOSCcer. master). 


在 Linux 中 ， 用 代码 清单 12.25 的 spi_driver 结 构 体 来 描述 一 个 SPI 外 设 驱 动 ， 


spi masterlf] & P vig JX « 


代码 清单 12.2$ spi driver 结 构 体 


ISUrPruct Spr UPIMWeX. A 


2 
3 
4 
5 
6 
7 
8 
9 


板 。 


接口 的 第 


—— 


CONST. “SELUCE Sp -devrce. md "gd cable; 


LN (5 probe) (struct Spl: device spi.) 

IAL (*remove)istrucc spr.devrce “Spi) 7 

void (~SHUCOOwn) (Struck Spl -device Asp)? 

INE (^suspend) (struct. ‘spl device “spl, pm message t mesa); 
LAG (mro cume (ocr uct: “Spl. device 4 5p): 

SULEUCL. device driver CX Wed 


这 个 外 设 驱 动 可 以 认为 是 


可 以 看 出 ，spi_driver 结 构 体 和 platform _ driver 结构 体 有 极 大 的 相似 性 ， 都 有 probe ©) 、remove () 、 
suspend () ~ resume () 这 样 的 接口 和 device _ driver 的 实例 。 是 的 ， 这 几乎 是 一 切 客户 问 驱 动 的 种 用 模 


在 SPI 外 设 驱 动 中 ， 妆 通 过 SPI 忌 线 进行 数据 传输 的 时 候 ， 使 用 了 一 僚 与 CPU 无 天 的 统一 的 接口 。 


代码 清单 12.26 spi transfer 结 构 体 


LoC rut Spr branes her’ wd 


2 JW TUS Ok TI pe Dut => TA pur EE. 

3- * FOr Microwi re, one “butter must be null 

4. C Dulrers- must work wih Oma “map single () calls, unless 
S» cod spiri Tiessage.is dma Mapped reports a pre-existing mapping 
0. Ay 

T XD SE» One "USC DU 

8 void SOC DUL 

9 unsigned len; 
10 
l3. cms &dear- c tx dma; 
1 ma dor t rx dma; 


lS SELUCe. So table cx Sg; 
ld Struct sg table Tx S9; 


Us 
16 unsigned GS changes 17 
17 unsigned Cx DULY 
18 unsigned rx DOLLS 237 
19#define SPI NBETS SINGLE OxOL7* Jor: transfer *J/ 
20#define SPI NBITS DUA 0x02)" 2pits transter *7 
21#define SPI NBITS QUAD 0x04/* bits transfer “7 
22 US Dies. per word; 
2 Se delay usecs; 
24 u32 speed nz; 
25 
26 SUGUCL- Just hedd Crans er crc. 
2 
而 一 次 完整 时 SPI 传 输 流 程 可 能 不 是 只 包含 一 次 spi transfer, "t HI fe, 


spi _ transfer 了 最 终 通 过 spi message HR Æ, HE X udin 812.27 Bra o 


1 个 关键 数据 结构 就 是 spi transfer， 它 用 于 描述 SPI 传 输 ， 如 代码 清单 12.26 所 示 。 


含 一 个 或 多 个 spi transfer, 


iX 


XE 


Ek 


——^ 
人 


代码 清单 12.27 spi message 结 构 体 


| 


2 1 transfers; 

3 

4 SUPUDL Spr device * Spi, 

5 

6 unsigned is dma mapped: 17 

7 

8 /* REVISIT: we might want a flag affecting the behavior of the 
9 * last transfer ... allowing things like "read 16bit length L" 
10 * immediately followed by "read L bytes". Basically imposing 
11 * a specific message scheduling algorithm. 

LA 25 

13 * Some controller drivers (message-at-a-time queue processing) 
14 * could provide that as their default scheduling algorithm. But 
15 * others (with multi-message pipelines) could need a flag to 
16 * tell them about such special cases. 

E. HEY 

ib 

19 /* completion is reported through a callback */ 
zt vord (*complete) (void *context) ; 
2l word *context; 
22 unsigned frame length; 
23 unsigned actual length; 
24 int Status; 
255 
26 /* for optional use by whatever driver currently owns the 
Zh SbL message ses JSebtween calls to gSpr.asyuc nd beu Laver 
20« s GOomplLebpec) , tuat Une Spr Mester COntroLller driver. 
29. Wy 

3D. Struce: isu lead queue; 

31 yord *state; 

327 


通过 spi message init C) 可 以 初始 化 spi_message， 而 将 spi_transfer 洪 加 a 到 spi_message 队 列 的 方法 则 


gu 


VOLO: Spr Message add benxltsbruct Spr brgnerer "uy SLLUCE Shr message *m). 


及 起 一 次 spi message P8 H [H]Zv Al RL PAT EH IRI APIS, AH3ESEREDUT TH ELA 
完 。 同 步 操 作 时 使 用 的 API 是 : 


Amt SPL Syne (Struc Spo devcse es 


CEA SEP APINY, ANS HSE RIK TAU Ah Sc, [Hikn]LAfEspi message complete r Et fE 82— 
el APRN, “YA Ob Soa, Armas ya. FESR AP BREINER APL: 


Lie; SPL ovIctsuPuct Spi. devrce “spl, SETU Spi: Message Message); 


代码 清早 12.28 是 非常 典型 的 初始 化 spi transfer. spi message 并 进行 SPI 数 据 传 输 的 例子 ， 同 时 
spi write Ò ~ spi read © 也 是 SPI 核 心 层 的 两 个 通用 快捷 API， 在 SPI 外 设 驱 动 中 可 以 直接 调用 它们 进行 
简单 的 纯 写 和 纯 读 操作 。 


代码 清单 12.28 SPI 传 输 实 例 sSpi write Ò ~ spi read (Ò API 


二 
ee 


3 

4 Sthuce, Spl: Cransier t= { 

5 “EX DUL = buf, 
6 len — len, 
7 }; 

8 SULUCL Spi message m; 

9 
10 Spl Message. Intemm) 
Ll Spi message add talltst, Sm)? 
LZ returi Spi syne (spl, Sm) 
123 
14 


lostatcc- gmnlone cnt 
LOSpE -read(sbsucb spt devgrce TpDry QO*OUIL GIAO t Len) 


LT 

ilo: SULUCE Spr LhPanster t = { 

19 «ac Ut = buf, 
20 len — len, 
2l ] 

Zz Struct Spr message TS 

29 

24 Spi message 1n1tb (em) 7 

Zo Spi. Message. add. taal (vcr. 807 

26 DeLulm. SOLS yuC (Spi; “am, 7 

Z1) 


SPISE Ld till AS SKA) T drivers/spi/, XEWKA EAE SEE, f spi master 的 transfer () 、 
transfer one () ~ setup ©) 这 样 的 成 员 图 数 ， 当 然 ， 也 可 能 是 实现 spi bitbang 的 txrx bufs O 、 
setup transfer () ~ chipselect O 这 样 的 成 员 了 图 数 。 代 但 清单 12.29 摘 取 了 drivers/spi/spi-p1022.c 的 部 分 代 
Ads 


代码 清早 12.29 SPIE HL BKB SE MT P 8 


static Int pl027 trani er one Message (Struc r Spr master “master, 
2 SULUCH gpi- message. msg) 

21 

4 -SULUCt plU22"pl022-- spo master get devdetadtmaster); 


PLOZZ=2Cur- msg. = msg; 


o 
6 /* Initial message state */ 
J 
o- Msg=-Stdre = TALE STAR 


9 
I0 DLOZ2 >OU Lralsrer = Ist enuryiunso-transrers.mnexo, 
L CO 
1:2 


13- J* Setup the SPI using the. per “chap oconfigurdtron */ 
Tap LOZA Cur chim. = spi Gev .cuiLdaca(msg= spi) > 
19 plU22- Cur see = Pp lLOV Ze Ch poe ecrs  msg=7 spl cochcrpcseseoctls 


Lt restore stetetplu22y$ 
Lo TlusStpto22)7 


ZU.XT. Cpl022e20ur chrp-scxter type == POLLING- TRANS? ER) 
PAR do polling ~ransren(plL0Z2); 

22 else 

29 ao inbterrupLi dma vranster(plo022)5 

24 

29 fetur V; 

26} 

27 

JOSTALVG TInt PLOUZ SSLUDCSLEUGE, Spi device: ASPI) 
Z911 

DU woe 

3L y * SCULE that xs. common. for all versions *7/ 
32 XE (sSprcomode- & SPI CPOLR) 


EX tmp = SSP CLK POL IDLE HIGH; 

34 else 

es tmp: e SSP (CLK POL IDLE LOW; 

56. SoF WRITE.BIISQODIpe "Qro, tmp Sob “CRO MASK SPO. 0); 
34 

30 f (SDI omode -t SPI CPHA) 

39 tmp = SSP CLK SECOND EDGE; 

40 else 

41 tmp = SSP CLK FIRST EDGE; 

42 SSP WRITE BITS(chip-»cr0, tmp, SSP CRO MASK SPH, 7); 
43 


44 


48 { 


Dd: Je 
52 * Bus Number Which has been Assigned to this SSP controller 
53 * Qn Enis beard 


54 NJ 
59 Tilagter-opus Aum = platform info--bus. 1d; 
26 MaS Cer- num chrpselect = num cs; 


5? mester-^scrleamup.- plU22 cleanup; 
90 master-^setuP = plo0227 Setup; 


99 Saster--auto runtime (pm = true; 

o0 master-»iransfer one message = pl022 transrter one message; 

ol master-»unprepare transfer hardware = pl022 unprepare transfer hardware; 
62 ngster--rt = platronm Znmfo-r5 

oo IDaster-odev,.,of node = dev=>o0r node; 

64 

65 

66 } 


SPI 外 设 驱 动 吉 布 于 内 核 的 drivers、sound 的 各 个 子 目 录 之 下 ，SPI 只 是 一 种 总 线 ，spi_driver 的 作用 只 是 
将 SPI 外 设 挂 接 在 该 总 线 上 ， 因 此 在 spi driver 的 probe〈) 成 员 函 数 中 ， 将 注册 SPI 外 设 本 号 所 属 设备 驱动 


的 类 型 。 


和 platform driver 对 应 看 一 个 platform_ device 一 样 ，spi_driver 也 对 应 看 一 个 spi_device; platform device 
需要 在 BSP 的 板 文 件 中 添加 板 信息 数据 ， 而 spi device 也 同样 需要 。spi device 的 板 信 息 用 spi board info 结 
构 体 描述 ， 该 结构 体 记 录 痢 SPI 外 设 使 用 的 主机 控制 器 序号 、 卢 选 序号 、 数 据 比 特 率 、SPI 传 输 模式 〈 即 
CPOL、CPHA) 等 。 诡 基 亚 770 上 的 两 个 SPI 设 备 的 板 信 息 数 据 如 代码 清单 12.30 所 示 ， 位 于 板 文 件 
arch/arm/mach-omap 1 /board-nokia770.c# - 


代码 清单 12.30 ”诺基亚 770 板 文件 中 的 spi_board info 


IStatric Struct. Spr Doard into nokia? +0 Sor board inioll nitdata = 1 
2 [0] = ( 

3 .modalias = "lod. mrprd" 

4 .bus num = 2, /* 用 到 的 SPI 主 机 控制 器 序号 */ 
5 .Ghip select = 3, /* 使 用 哪个 片 选 * / 

6 .max speed hz = 12000000, /* SPI 数 据 传输 比特 率 */ 

y WpLatform data — &nokia770 mipid platform data, 

9 by 

2 php £23 
10 .modalias = "agds7846", 
l4 .bus num = 2, 
12 sen. select = 0, 
Le .max speed hz = 2500000, 
14 euro, = OMAP GPIO IRQ(15), 
Lo platform Cava = &nokia770 ads7846 platform data, 
16 Da 
173 


fELinux/H a EP, TEDL4&HJinit machine O KAR, iO Ria aE spi board info: 


Spl. register bogrd 1nfo(nokia//0 Spi board inip; 
ARRAY SIZE(nokia770 spi board info)); 


这 一 点 和 局 动 时 通过 platform add devices ©) 添加 platform device 非 常 相 似 。 


ARM Linux 3.x 之 后 的 内 核 在 改 为 设备 树 后 ， 不 再 需要 在 arch/arm/mach-xxx 中 编 公 SPI 的 板 级 信息 了 了， 


if BUR] FESPA las D EA RRS, UMRE 212.3129 th f arch/arm/boot/dts/omap3-overo-common- 
lcd43.dtsi ^ £5 H'Jads7846 T FA o 


代码 清单 12.31 通过 设备 树 添加 SPI 外 设 


l&mcspil(í 

2 pinctrl-names = "default"; 

3 pancerl=0> Smospill piss 

4 

S pt ouch GOT roller 9*7 

6 ads7846(01 

7 pinctrl-names = "default"; 

8 prucurl-0- <cads 7/046" piss; 

9 

10 compatible = "ti,ads7846"; 

T vcc-supply = «&ads7846reg»; 

1:2 

13 reg = «0»; AS 
14 Spi-max-frequency = «1500000»; 

lio 

16 interrupt-parent = «&gpio4»; 

L7 interrupts = <180>; ee 
ES pendown-gpio = <&gpio4180>; 

19 
20 ti; x- min =./bits;7 l16€0x0» 
21 ti,x-max = /bits/ I6€«0xOfff; 
2 tr,y-min = /bits/ Le<0x0>; 
23 ti,y-max = /bits/ 16«0x0fff»; 
24 bi,x-plate-ohms = (bitsy, 6-198055; 
2.5 tipressure-max = /brts/ L6<255>; 
26 
2 linux,wakeup; 
298 Ke 


12.5 me 


FUSER TE HE SRIF MR EB O~1 Le ARPES ER, "C TETERLS J platform, AWA. DATAE oes 
AEC, Se SJ BU SS 1238 AN AY AS ce ER AT es PE A BA Linux 4% AA E ET 
驱动 子 系 统 ， 一 个 个 去 学 肯定 是 不 现实 的 ， 在 方法 上 也 是 错误 的 。 我 们 要 掌握 其 规律 ， 以 不 变 应 万 变 ， 以 
无 招 胜 有 招 。 
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块 设备 是 与 字符 设备 并 列 的 概念 ， 这 两 类 设备 在 Linux 中 的 驱动 结构 有 较 大 差异 ， 总 体 而 言 ， 块 设备 
张 动 比 字 符 设 备 张 动 要 复杂 得 多 ， 在 IO 操作 上 也 表现 出 极 大 的 不 同 。 绥 冲 、LIO 调 度 、 请 求 队列 等 都 是 与 
块 设备 驱动 相关 的 概念 。 本 草 将 详细 讲解 Linux 块 设备 张 动 的 编程 方法 。 


13.1 慷 讲解 块 设备 的 VO 操作 特点 ， 分 析 字 和 从 设备 与 块 设备 在 IO 操作 上 有 的 牵 弄 。 

13.2 节 从 整体 上 描述 Linux 块 设备 驱动 的 结构 ， 分 析 主 要 的 数据 结构 、 函 数 及 其 关系 。 
13.3~13.5 丰 分 别 讲解 块 设备 驱动 模 世 的 加 载 与 季 载 、 打 开 与 释放 和 ioct O 函数 。 
13.6 节 非常 重要 ， 讲 述 了 块 设 备 IO 操 作 所 依赖 的 请 求 、bio 处 理 方 法 。 


13.7 节 在 13.1~13.6 节 所 讲解 内 容 的 基础 上 上， 总 结 在 Linux 下 块 设 备 的 读 写 流程 ， 实 现 了 块 设备 驱动 的 
一 个 有 具体 实例 ， 即 vmem disk 驱 动 。 


13.8 节 简单 地 讲解 了 Linux 的 MMC 子 系统 以 及 它 与 块 设备 的 关系 。 


13.1 块 设备 的 /O 操 作 特 点 
字符 设备 与 块 设备 1/O 操 作 的 不 同 如 下 。 


1) 其 设备 只 能 以 块 为 单位 接收 输入 和 返回 得 出 ， 而 字符 说 备 则 以 字 而 为 单位。 大 多 数 设 备 是 字符 设 
备 ， 因 为 它们 不 需要 缓冲 而 且 不 以 固定 其 六 小 进行 操作 。 


2) 块 设备 对 于 IO 请 求 有 对 应 的 缓冲 区 ， 因 此 它们 可 以 选择 以 什么 顺序 进行 啊 应 ， 字 符 设 备 无 顷 缓冲 
有 被 直接 旋 写 。 对 于 存储 设备 而 言 ， 调 整 谈 写 的 顺序 作用 巨大 ， 因 为 在 读 与 连续 的 局 区 的 存储 速度 比分 
Hs DX BEE 

3) 字符 设备 只 能 被 顺序 谈 写 ， 而 块 说 备 可 以 随机 访问 。 


虽然 毁 设 备 可 随机 访问 ， 但 是 对 于 人 破 盘 这 类 机 械 设 备 而 言 ， 顺 序 地 组 织 贷 设备 的 访问 可 以 提高 性 能 ， 
如 图 13.1 所 示 ， 对 局 区 1、10、3、2 的 请 求 补 调整 为 对 局 区 1、2、3、10 的 请 求 。 


在 Linux 中 ， 我 们 通 和 党 通过 人 磁盘 文件 系统 EXT4、UBIFS 等 访问 人 磁 检 ， 但 是 磁 可 也 有 一 种 原始 设备 的 访 
问 方式 ， 如 直接 访问 /dev/sdb1 等 。 所 有 的 EXT4、UBIFS、 原 始 块 设备 又 都 工作 于 VFS 之 下 ， 而 EXT4、 
UBIFS、 原 始 块 设备 之 下 义 包 含 块 1/O 调 度 层 以 进行 排序 和 合并 〈( 见 图 13.2) 。 


请 求 局 区 1 


请 求 届 区 10 


请 求 剧 区 3 





in KJ X2 


调整 前 调整 后 


图 13.1 调整 块 设备 VO 控 作 的 顺序 








块 设备 驱动 UE E 


图 13.2 ”Linux 抉 设备 子 系统 


LO 调度 层 的 基本 目的 是 将 请 求 按照 它们 对 应 在 块 设备 上 的 山区 号 进行 排列 ， 以 减少 磁头 的 移动 ， 所 


13.2 Linux 其 设备 张 动 结构 
13.2.1 block device _ operations 结 构 体 


在 块 设备 驱动 中 ， 有 一 个 类 似 于 字符 设备 驱动 中 file _ operations 结 构 体 的 block device _ operations 结 构 
体 ， 它 是 对 其 设备 操作 的 集合 ， 定 义 如 代码 清单 13.1 所 示 。 


代码 清单 13.1 block device operations 结 构 体 


LSbteuct block, device Operations 4 


Z ime (open) (struct block device *, Imode ts 

3 VOLO (^relesse) (Struct gendisk 7, tmode T)? 

4 LIVE do uw page) (struce block device “|. Sector t, Seruce page ^. Ine DW) 
9 int. [*L106t1) (struct block device *; Zmooe t; unsigned, unsigned long); 
6 ime. (*Compatl Looti) (Struct block device ^, Imode t, unsigned, unsigned Long)? 
7 int ("direct 200895) (sueruce Dlock device ~; Sector 5 

8 void **, Unsigned Long *)$ 

9 unsigned int (*oheck events) (struct gendisk “disk, 
10 unsigned int clearing); 
T /A* -»^media changed() is DEPRECATED, use ->check events() instead ae 
12 int (“media changed) (struct gendisk *); 
13 vord (“unlock native Capacity) (Struct Gencdisk “); 
14 int (*xevalidate disk) (struct gendisk =)? 
1:5 Imt q(*59etgeo)tstruct block device y ‘struce. hd geometry =); 
16 /* this callback is with swap lock and sometimes page table lock held */ 
UNE youd ("swap Slot tree notrry) (struct block device ^, unsigned long); 
18 struct module *owner; 


FAXR EZR PR BEET PT - 


1. 打 开 和 释放 


Lut (“Open) (struct block device ~=; Imode tc); 
void (“release) (Struct. gendisk *, Imode LJ; 


SPE RAR, Suc MIT IPAS TES AE 117 


2.11/04% til 
Int X *rI0OLI) (struct block device *, imode t; unsigned, Unisagned tong); 
int ("compat roctl) (struct block device * Imode t, unsigned, unsigned Long); 


上 述 函 数 是 ioct1() 系统 调用 的 实现 ， 决 设备 包含 大 量 的 标准 请 求 ， 这 些 标准 请 求 由 Linux 通 用 块 设 
备 层 处 理 ， 因 此 大 部 分 块 设备 驱动 的 ioctl() 疯 数 相当 短 。 当 一 个 64 位 系统 内 的 32 位 进程 调用 ioctl() 的 
时 候 ， 调 用 的 是 compat ioctl OO 。 


3. 介 质 改 变 


rnt (“media Changed) (struct Gendisk *od); 


AS 


经 改变 ， 如 果 是 ， 则 返回 一 个 非 0 值 ， 否 则 返回 0。 这 个 函数 


BALA Val Hd EAS Ka is BU T En CS 
南 要 在 驱动 中 增加 一 个 表示 介质 状态 是 否 改变 的 标记 变量 ， 非 可 


是 
仪 适 用 于 支持 可 移动 介质 的 驱动 磊 ， 退 蜗 
移动 设备 的 驱动 不 需要 实现 这 个 方法 。 


Unsigned ine ("check events) (Strucc gendisk “disk, 
unsigned int clearing); 


media changed © 这 个 回调 函数 目前 已 经 过 时 了 ， 已 被 check events O 替代 。Tejun 
Heo<t@Kkernel.org> 在 内 核 提交 了 一 个 补丁 ， 完 成 了 “implement in-kernel gendisk events handling” 的 工作 ， 这 
个 补丁 对 应 的 commit ID 是 77ea887e。 老 的 Linux 在 用 太空 间 里 轮 询 可 移动 磁盘 介质 是 售 存 在 ， 而 新 的 内 核 
则 在 内 核 空 间 里 轮 询 。check events O 函数 检查 有 没有 挂 起 的 事件 ， 如 果 有 
DISK EVENT MEDIA CHANGE DISK EVENT EJECT _ REQUEST 事件 ， 就 返回 。 


4. 使 介质 有 效 


int ("revalidate disk) (Struct gendisk ~ga? 


revalidate disk C) 函数 被 调用 来 啊 应 一 个 介质 改变 ， 它 给 驱动 一 个 机 会 来 进行 必要 的 工作 以 使 新 介质 
准备 好 。 


5.5 IK) i s I 


Ime. (598Lgeo) (Struce. DloGK device ~- Struct Hg geomecry ~y 


VA PAL BOR He Ko 2s 0 J Uff fei RAA "hd geometry Ts, hd geometry TJ Be WK. aX. T 
面 等 信息 ， 其 定义 于 include/linux/hdreg.h 头 文件 中 。 


0. 模块 指针 


struct module *owner; 


一 个 指 癌 拥有 这 个 结构 体 的 模块 的 指针 ， 它 通常 被 初始 化 为 THIS MODULE. 


13.2.2 ”gendisk 结 构 体 


在 Linux 内 核 中 ， 使 用 gendisk〈 通 用 人 破 盘 ) 结构 体 来 表示 一 个 独立 的 伐 盘 设备 《或 分 区 ) ， 这 个 结构 
体 的 定义 如 代码 清单 13.2 所 示 。 


代码 清单 13.2 gendisk 结 构 体 


lstruct gendisk { 


2 /* major, first minor and minors are input parameters only, 
3 * don't use directly, Use disk dëvt() and disk max parteis 
4 y 

E int major; /* major number of driver */ 

6 Live Lest Minor; 

7 int manors: /* maximum number of minors, =lfor 

8 * disks that can't be partitioned. */ 

9 

10 char disk name[DISK NAME LEN]; /* name of major driver */ 
11 Char “(*devnode) (Struct gendisk “gd; umode © “made; 

12 

13 unsigned int events; /* supported events */ 

14 unsigned ING async events; /* async events, subset of all */ 
du 

16 /* Array of pointers to partitions indexed by partno. 

17 * Protected with matching bdev lock but stat and other 

18 * non-critical accesses use RCU. Always access through 
1:9 * helpers. 
20 A 
al SLIEHCL disk part tol. teu *pare TOL; 
Ba Strüct hd Surucr parto 
PAS 
24 Const. Ssuruce Dock device operations ^rTOpsy 
25 struct request queue “gueuse; 
26 VOLO *DrEXvate Gata; 
21 
28 int, flags; 
29 struct device *driverfs dev; // FIXME: remove 
30 struct kKobDject “slave dir; 

g1 

32 Struct Lider rand state. ^randon; 

33 atomic t Sync 107 /* RAID */ 

34 struct digk events ^ev 

35#ifdef CONFIG BLK DEV INTEGRITY 

36 Struct Dik integri “In eg iL) 

37#endif 

38 int node id; 

39} 


major. first minor 和 minors 共 同 表 征 了 磁盘 的 主 、 次 设备 号 ， 同 一 个 磁盘 的 各 个 分 区 共 孕 一 个 主 设备 
写 ， 而 次 设备 号 则 不 同 。fops 为 block_device operations， 即 上 市 摘 述 的 块 设备 操作 集合 。queue 是 内 核 用 来 
管理 这 个 设备 的 VO 请 求 队列 的 指针 。private_data 可 用 于 指向 磁盘 的 任何 私有 数据 ， 用 法 与 字符 设备 驱动 
file 结 构 体 的 private_data 关 似 。hd struct 成 员 表 示 一 个 分 区 ， 而 disk part tb] 成 员 用 于 容纳 分 区 表 ，part0 和 
part tbl 两 者 的 关系 在 于 : 


diek= Spart ToL paetl0l = disk- patti; 
Linux 内 核 提 供 了 一 组 函数 来 控 作 gendisk， 如 下 所 示 。 
1.4} Ri gendisk 


gendisk 结 构 体 是 一 个 动态 分 配 的 结构 体 ， 它 需要 特别 的 内 核 操 作 来 初始 化 ， 张 动 不 能 目 己 分 配 这 个 


结构 体 ， 而 应 该 使 用 下 列 函 数 来 分 配 gendisk: 


Struct Gendisk “alloc disk(1int minors); 


minors Z Ble 1k 1254456 FRI Ss ee, A ee ek A E, EC Ja minors ^ BE C42 
EX o 


2. 增 加 gendisk 
gendisk 结 构 体 被 分 配 之 后 ， 系 统 还 不 能 使 用 这 个 夏 盘 ， 需 要 调用 如 下 函数 来 注册 这 个 人 夏 租 设备 。 


VOLO edd disk(struct gendisk Fdisk)? 


特别 要 注意 的 是 : Xfadd disk O 的 调用 必须 友 生 在 驱动 程序 的 初始 化 工作 完成 并 能 啊 应 磁盘 的 请 求 
之 后 。 


3. 释 放 gendisk 
当 不 再 需要 磁盘 时 ， 应 当 使 用 如 下 函数 释放 gendisk。 


void del gendisk(struct gendisk *gp); 


4.gendisk 引 用 计数 


通过 get disk © 和 put disk © 函数 可 操作 gendisk 的 引用 计数 ， 这 个 工作 一 役 不 需要 驱动 杀 目 做 。 这 
PAS ER SL JE 70 7 90] 73: 


Struct, KobJecL “ger. dusk (struct gendisk “diek); 
void PUL disk(strüct gendisk *disk)j 


前 者 了 最终 会 调用 “kobject_ get (&disk to dev (disk) ->kobj) ; ”， 而 后 者 则 会 调 
用 “kobject put (&disk to dev (disk) ->kobj) ; ” 


13.2.3 ”bio、request 和 request queue 


A 


IBS As 


实例 拍 述 了 该 VO 请 求 的 开始 而 区、 数据 方 同 〈 读 还 是 写 ) 、 数 据 放 入 的 页 ， 


人 小。 


一 个 bio 对 应 上 层 传递 给 块 层 的 1/O 请 求 。 每 个 bio 结 构 体 实例 及 其 


代码 清单 13.3 ”bio 结构 体 


LeScruce. pDvec. acer 1 


cO -10» 0145 Co P2 


9 
LUF? 
T 
12:758 


包含 的 bvec iter. bio vec 结 构 体 


其 定义 如 代码 清单 13.3 所 


PODCOL L Di Sector. /* device address in 512byte 
sectors */ 

unsigned int bi size; i wesidual I/O count *y 

unsigned int Dx ox /* current index into bvl vec */ 

unsigned int bi bvec done; /* number of bytes completed 


in Current. bvec */ 


13 * main unit of I/O for the block layer and lower layers (ie drivers and 
14 * stacking drivers) 


Le Ww 


lostruct bio 4 


UN. 


Struce Dno ^D next; /* request queue link */ 
struct DIOCR device *bi bdev; 
unsigned long pi flags; /* status, command, etc */ 
unsigned long bi rw; /* bottom bits READ/WRITE, 
" töp DILS Priority 
x 
Struct Dvec Iter Dr ter? 


/* Number of segments in this BIO after 
* physical address coalescing is performed. 


id 
unsigned int Di phys Segments? 
struct bio vec "br 10 veo; /* the actual veo list */ 
StLucb bac Set *bi POOL? 
/* 


* We can inline a number of vecs at the end of the bio, to avoid 
^ double allocations for a small number of Dio vecs. This member 
* MUST obviously be kept at the very end of the bio. 

TU 


bUrucu DLO Yec bi inline vecs [0]; 


与 bio 对 应 的 数据 每 次 存放 的 内 存 不 一 定 是 连续 的 ，bio_vec 结 构 体 用 来 描述 与 这 个 bio 请 求 对 应 的 所 有 


的 内 存 ， 


素 实 际 是 一 个 [page，offset，len]， 我 们 一 般 也 称 它 为 一 个 片段 。 


代码 清单 13.4 bio vec 结 构 体 


Ltruct. DLO vec. 4 


2 
3 
4 
2]; 


struct page *bv page; 
unsigned int bv len; 
unsigned int Dv Offset; 


它 可 能 不 忌 是 在 一 个 页 面 里 面 ， 因 此 需要 一 个 同 量 ， 定 义 如 代码 清早 13.4 所 示 。 辣 量 中 的 每 个 元 


LO 调度 算法 可 将 连续 的 bio 合 并 成 一 个 请 求 。 请 求 是 bio 经 由 VO 调度 进行 调整 后 的 结果 ， 这 是 请 求 和 
bio 的 区 别 。 因 此 ， 一 个 request 可 以 包含 多 个 bio。 当 bio 被 提交 给 IO 调度 器 时 ，LO 调 度 器 可 能 会 ; 
插入 现存 的 请 求 中 ， 也 可 能 生成 新 的 请 求 。 


41% bio 


每 个 块 设备 或 者 块 设备 的 分 区 都 对 应 有 自身 的 request queue， 从 IO 调度 器 合并 和 排序 出 来 的 请 求 会 被 


分 友 (Dispatch)〉 到 设备 级 的 request_queue。 图 13.3 搬 述 f/'request queue. request. bio. bio vecZL[IR]H A 
系 。 


i. ^N = 4 A yh R 
J-"l'request H 1a bio 
request_ queue 每 个 request 可 能 包 售 多 1 
M zi 内 
请 求 





— bok ; ; request 
bi io vec \bi idx 


每 个 bio 可 能 对 
tly "bio vec 














bio vec|bio vec|bio vec|bio vec 
7 T - T 





页 — " 
\ 每 个 bio_vec 对 应 一 个 
E 页 中 的 二 部 分 


图 13.3 request queue. request. bio^«llbio vec 
下 面 看 一 下 驱动 中 涉及 的 处 理 bio、request 和 和 request queue 的 主要 API。 


(1) 初始 化 请 求 队列 


EUeSL queue L *DIK inii gueue(request Tn proc “rin, spinblock C *lock); 


TARR BEN FP BBE Ts ADE PR BN TR TS S98 LI BE PEI Us i] BA UAB EN eB, IX ERU 
发 生 内 存 分 配 的 行为 ， 它 可 能 会 失败 ， 因 此 一 定 要 检查 它 的 返回 值 。 这 个 函数 一 般 在 块 设备 驱动 的 初始 化 
过 程 中 调用 。 


(2) 清除 请 求 队列 


void Dik. Cleanup. queue (fequest.queus TT * © 


这 个 函数 完成 将 请 求 队列 返回 给 系统 的 任务 ， 一 上 般 在 块 设备 驱动 凶 载 过 程 中 调用 。 


(3) 分 配 请 求 队列 


reguest queue bL *DIKk alloc queue tint grip mask); 


对 于 RAMDISK 这 种 完全 随机 访问 的 非 机 械 设 备 ， 并 不 需要 进行 复杂 的 IO 调度 ， 这 个 时 候 ， 可 以 直 
Br VOW Eas, EFAS BPS BORA FE tag He BA A“ itil] eR” PKA (make request fn) 。 


void blk queue make request (request queue t * q, make request fn * mfn); 


blk alloc queue () 和 blk queue make request O 结合 起 来 使 用 的 饮 辑 一 般 是 


Xxx queue = bLK alloc: queue (GFP KERNEL)? 
blk queue make request (xxx queue, XXX make request); 


(4) 提取 请 求 


SUPUCL -requesbc * DLE peek TEUS SCTU request queue Agy 


Exh es ai FRE RS TO BVO RE) ， 如 有 果 没 有 请 求 则 返回 NULL。 它 不 会 消 
除 请 求 ， 而 是 仍然 将 这 个 请 求 保留 在 队列 上 上。 原先 的 老 的 函数 elv_next request O 已经 不 再 存在 。 


(5) 启动 请 求 


GO 


从 请 求 队列 中 移 除 请 求 。 原 先 的 老 的 API blkdev dequeue request O 会 在 blk start request () 内 部 被 
Val FH o 


我 们 可 以 考虑 使 用 blk fetch request O KAG "EE [HIIS e blk peek request O 和 
blk start request CO 的 工作 ， 如 代码 清单 13.5 所 示 。 


代码 清单 13.3 blk fetch request ©) 函数 


Si 


Z1 

3 Struct.regquest Trg; 

4 

5 pq DL peck equese.(g ).z 

6 LE EG) 

7 blk start request (rq); 
8 POCUT- TO? 

2j 


(6) 3&jbiodl Fr Ek 


#define rq for each bio( bio, rq) \ 
if ((rq-»bio)) 
Bor “CO e ong ecDhoOL DEO- DTO = DLO DL- next) 


Iq for each bio © 遍历 一 个 请 求 的 所 有 bio。 


rdecrine . pro Tor each segment(bwl, Dio, -Itere start) X 
tor {riter = (Start) N 
(iter).bi size && à 
(CObvL = bio iter 20vect(bio);, XXter)3). Lys N 

Dro Advance Cem (BIO); etter), (CYL) sy. len) 
defines bro for each segment (bvl, brio, 1ter) \ 


~ pro Tor each Segment Dyle lO, ver, (DIO) FDL. crter) 


bio for each segment O Wj —" Pl bio] Pr bio vec. 


"derrinme xq ror each Sssqmenc (bv, gy Uber) N 
__rq for each bio( iter.bio, rq) N 


Dro Bor esc Segment (vl, veerOLO BDeÉ.oer) 


rq for each segment O 1& {Qi — P WB & PT bio HY PT segment. 


(7) 报告 完成 


Eee 


vod blk _ end "TeoucSt SR 


XN PY ER 数 用 于 报告 r1 IR? 


否 完 成 ，error 为 0 表示 成 功 ， 小 于 0 表示 失败 
需要 在 持 有 队列 锁 的 场景 下 调用 。 


o . blk end request all ©) 


类 似 的 函数 还 有 blk end request cur () ~ blk end request err () ~ blk end request () 、 


. _ blk end request cur () 以 及 ”blk end request err () 。 其 中 
xxx end request cur OO. We HSER f request FS BU HA chunk, that 
bio cur bytes (rq->bio) 的 传输 。 


= blk end request all ©) 


征 完 成 了 当前 的 


石 我 们 用 blk queue make request O 纪 开 IO 调度 ， 但 是 在 bio 处 理 完 成 后 应 该 使 用 bio_endio O K% 
通知 处 理 结 束 : 


人 


如 果 是 VO 操作 故障 ， 可 以 调用 快捷 函数 bio io error O ， 它 定义 为 : 


rdecrinme Dio To Seronm Lo b10:end1o( me) yy -—-EI0) 


13.2.4 LO 调度 器 


Linux 2.6 以 后 的 内 核 包 售 4 个 IO 调度 硕 ， 它 们 分 别 是 Noop VOW Eas. Anticipatory /Oid £88 « 
Deadline IO 调度 器 与 CFQ VOW Zs. ELH, Anticipatory IO 调度 器 算法 已 经 在 2010 年 从 内 核 中 去 探 了 。 


Noop LO 调度 喜 是 一 个 简化 的 调度 程序 ， 访 算法 实现 了 一 个 简单 FIFO 队 列 ， 它 只 进行 最 基本 的 合并 ， 
比较 适合 基于 Flash 的 存储 器 。 


Anticipatory IO 调度 器 算法 推迟 IO 请 求 ， 以 期 能 对 它们 进行 排序 ， 获 得 最 高 的 效率 。 在 每 次 处 理 完 读 
请 求 之 后 ， 不 是 立即 返回 ， 而 是 等 每 几 个 做 秒 。 在 这 上段 时 间 内 ， 任 何 来 自 临 近 区 域 的 请 求 都 被 并 即 执行 。 
超时 以 后 ， 继 续 原 来 的 处 理 。 


Deadline OÑ KE 23 72 £1 XT Anticipatory W/O 调度 右 的 缺点 进行 改善 而 得 来 的 ， 它 试图 把 每 次 请 求 的 延迟 
降 至 最 低 ， 访 算法 重 排 了 请 求 的 顺序 来 提高 性 能 。 它 使 用 轮 询 的 调度 硕 ， 简 涪 小 巧 ， 提 供 了 了 最 小 的 谈 取 延 
迟 和 疝 佳 的 厨 吐 量 ， 特 别 适 合 于 读 取 较 多 的 环境 《比如 数据 库 ) 。 


CFQ LO 调度 器 为 系统 内 的 所 有 任务 分 配 均 匀 的 IO 带宽 ， 提 供 一 个 公平 的 工作 环境 ， 在 多 媒体 应 用 
中 ， 能 保证 音 、 视 频 及 时 从 磁盘 中 读 取 数据 。 


内 核 4.0-rclblock 目 孙 中 的 noop-iosched.c、deadline-iosched.c 和 cfq-iosched.c 文 件 分 别 实现 了 
IOSCHED NOOP, IOSCHED DEADLINE 和 IOSCHED CFQ 调 度 算法 。as-iosched.c 这 个 文件 目前 已 经 不 再 
存在 。 当 前 情况 下 ， 默 认 的 调度 絮 是 CFQ。 


可 以 通过 给 内 核 添加 局 动 参数 ， 选 择 所 使 用 的 VO 调度 算法 ， 如 : 
kernel elevator=deadline 
也 可 以 通过 类 似 如 下 的 命令 ， 改 变 一 个 设备 的 调度 融 : 


echo SCHEDULER > /sys/block/DEVICE/queue/scheduler 


13.3 Linux & v SRN) 4n M 


在 块 设备 的 注册 和 初始 化 阶段 ， 
写 ， 完 成 这 个 任务 的 函数 是 register blkdev () , 


与 字 付 设备 驱动 类 似 ， 块 设备 驱动 要 注册 它们 自己 到 内 核 ， 申 请 设备 
其 原型 为 : 


int. register Dikdev(unsigned ant. major, const char *name); 


major 人 参数 是 块 设备 要 使 用 的 主 设 备 写 ，name 为 设备 名 ， 它 会 显示 在 /proc/devices 中 。 如 果 major 为 0， 
内 核 会 自动 分 配 一 个 新 的 主 设备 号 ，register blkdev O 函数 的 返回 值 就 是 这 个 主 设备 号 。 如 果 


register blkdev () ik 


—/S TUE, Fen ACA S —-MBTR 


S5register_blkdev () 对 应 的 注销 函数 是 unregister blkdev O ， 其 原型 为 : 


int unregister bikdev (unsigned int Major, const char *name); 


Ath FE PKI 


XH, feu register blkdev O 的 参数 必须 与 传递 给 register blkdev O WATLE, AUA eK ay 
返回 -EINVAL。 


数 的 工作 ， 并 且 可 能 会 分 配 、 初 始 化 gendisk 


加 gendisk。 


代码 清单 13.6 演 


blk init queue () 和 add disk O 的 工作 。 


USA A13.6 E de KEPT MG 


lsStagatro Ine xxx Init (vord) 


/* 块 设备 驱动 注册 */ 

if (register blkdev (XXX MAJOR, "xxx")) | 
err = -—EIO; 
Gocco Our, 

) 


/* 请 求 队列 初始 化 */ 


PREZ AR, TEER UAC ERIS ORE A, A i BATE OPAC. DERA, SB RE Ha BAS A RK 


， 给 gendisk 的 major、fops、queue 等 成 员 赋 值 ， 最 后 添 


页 示 了 一 个 典型 的 块 设备 驱动 的 初 妈 化 过 程 ， 其 中 包含 了 register blkdev O ~ 


Xxx queue = Dik init queue(xxx request, xxx lock); 


if (!xxx queue) 
goto out queue; 
blk queue max hw sectors(xxx queue, 255); 
DLE queue Logical Lock Ssize(xxx queue, L2); 


/* gendisk 初 始 化 */ 
xxx disks-»major = XXX MAJOR; 


ARK CuSks=-rirse Minor = P; 

xxx GOISKS- TODpS = xxx Op; 

xxx disks->queue = xxx queue; 

Spranel (xxx disks-»dlsk name, “KX d“; 2197 


Set Capacity (xxx digk; Bex Size *2)7 
add disk(xxx disks); /* 添加 gendqisk */ 


Peturm U; 
out queue: unregister blkdev (XXX MAJOR, "xxx"); 
ont put Gdisk (xxx disks); 


20. Dik cleanup queue (xxx queue); 
Zo 

20. retur cENOMEM; 

SUM 


上 述 代码 第 13 行 的 blk_ queue max hw sectors © 用 于 通知 通用 块 层 和 LO 调度 需 访 请求 队 列 文 持 的 
个 请 求 中 能 够 包含 的 最 大 而 区 数 ， 第 14 行 blk queue logical block size ©) 则 用 于 告知 该 请 求 队列 的 逻辑 
块 大 小 。 


在 块 设备 驱动 的 凶 载 过 程 中 完成 与 模块 加 载 久 数 相反 的 工作 。 
1) 清除 请 求 队列 ， 使 用 blk cleanup queue () 。 
2) 删除 对 gendisk 的 引用 ， 使 用 put disk ()。 


3) 删 际 对 块 设 备 的 引用 ， 注 销 块 设备 驱动 ， 使 用 unregister blkdev © . 


13.4 ” 块 设 备 的 打开 与 释放 


块 设备 驱动 的 open() 函数 和 其 字符 设备 驱动 的 对 等 体 不 太 相 似 ， 前 者 不 以 相关 的 inode 和 file 结 构 体 
指针 作为 参数 《〈 因 为 fle 和 inode 概 念 位 于 文件 系统 层 中 ) o fEopen O 中 我 们 可 以 通过 block_device 参 数 
bdev3XHXprivate data、 在 release C) K% P MM gendiskZ ZXdisk3X HX, — nfi 8.13.7 Prz .- 


代码 清单 13.7 在 块 设备 的 open〈() /release O rS Zt rp private data 


lstatic int xxx open(struct block device *bdev, fmode t mode) 
21 

3 Gtrucut Xxx dev *deyv = Ddev=7-bd disk=-privare daca; 

4... 

5 return 0; 

6 } 

7 

OSLatlo word Xxx release(struct Gendisk "disk; fmode c mode) 
23 
LD. SELUCt XIX dev “dey = disk-^praivate data; 
JJ ues 


13.5 ” 坎 议 备 豫 动 的 ioctl 范 数 


与 字符 设备 驱动 一 样 ， 块 设备 可 以 包含 一 个 ioctL O 函数 以 提供 对 设备 的 IO 控制 能 力 。 实 际 上 ， 高 
层 的 块 设 备 层 代码 处 理 了 绝 大 多 数 IO 控 制 ， 如 BLKFLSBUF、BLKROSET、BLKDISCARD、 
HDIO_GETGEO、BLKROGET 和 BLKSECTGET 和 等 ， 因 此 ， 在 其 体 的 块 设备 驱动 中 通常 只 需要 实现 与 设备 
相关 的 特定 ioctl 命 令 。 例 如 ， 源 代码 文件 为 drivers/block/floppy.c 实 现 了 与 软驱 相关 的 命令 (如 FDEJECT、 


FDSETPRM, FDFMTTRK 守 ) 。 


Linux MMC 子 系统 文 持 一 个 IOCTL 命令 MMC IOC CMD，drivers/mmc/card/block.c 实 现 了 这 个 命令 的 
处 理 ， 如 代码 请 半 13.8 所 示 。 


代码 清单 13.8 Linux MMC 块 设备 的 ioct] © 函数 


leStatic ane mmc Dik roctlistruoct block device ~bdev, Imode t mode, 


2 unsigned int cmd, unsigned long arg) 

24 

4 int ret = -EINVAL; 

S i1 (cmd ee MMC LOC -CMD) 

6 ret = mmc Dik root ocmdibdev, (Struct mmc 00 cmd “User: *)arg); 


a return ret; 
8} 


13.6 ” 块 设备 驱动 的 VO 请 求 处 理 


13.6.1 使 用 请 求 队列 


块 设备 驱动 在 使 用 请 求 队 列 的 场景 下 ， 会 用 blk init queue O 初始 化 request queue， 而 该 函数 的 第 一 
^ BBO Ee We EAH RIAN FET. request _ queue 会 作为 参数 传递 给 我 们 在 调用 blk init queue ©) 时 指定 的 
请 求 处 理 函 数 ， 项 设备 驱动 请 求 处 理 函 数 的 原型 为 : 


Static vold xxx reg(struct request queue 7g) 


iX ^ PRIS Be EH 37] EE U.S AKU Ae P LE GS] KB OST i eh HIS SERVER, "ELT URL 
PUT PL. TARA 3:32 LIESS Aot request} MARANO E UERR LEA — XE ZETA 
PALA IAA TAREA) . TIBI ALIS. 925 I — P fe] BD eg eA EE ERICH, ERF 


drivers/memstick/core/ms_block.c. 
代 但 清单 13.9 RBC ESRI R ER BU AE 


Static voro meo Submit Tego ruc request queue 7d) 


3 SUrUCE menstick dev *card = qe^queuedaras 
4 Struct msb data mso = memstick.get drvdata (card) ; 
E struct request *req - NULL; 
6 
7 dbg verbose("Submit request"); 
8 
9 if (msb-»card dead) { 
10 dog ("Refusing requests on removed card"); 
11 
12 WARN ON(!msb->10 queue stopped); 
Lo 
14 whale (€(req = Dik retos request (q)). t= NUCL) 
La blk end request all(req, -ENODEV); 
Lib return; 
1.7 } 
18 
19 if (msb->req) 
20 returns 
21 
22 Lt (mab >10 queue stopped) 
23 queue work(msb-»io queue, &msb-»io work); 
24} 


上 述 代码 第 14 行 使 用 blk fetch request O 获得 队列 中 第 一 个 未 完成 的 请 求 ， 由 于 msb->card dead 成 
说 ， 实 际 上 我 们 处 理 不 了 该 请 求 ， 所 以 就 直接 通过 ”blk end request all (req, -ENODEV) 返回 错误 了 。 


正常 的 情况 下 ， 退 过 queue work (msb->io queue, &msb->io work) 局 动工 作 队 列 执行 


msb io work (struct work struct*work〉 这 个 函数 ， 它 的 原型 如 代 公 清单 13.10 所 示 。 


代码 清单 13.10 msb io work ©) 完成 请 求 处 理 


lstgtic void msb 10 work(struct work Struct *work) 
PA 
3 struct mb data *msb = container of (work, struct msb data, 10 work); 


4 rnt page, error, Len; 
2 SeOPOE E lods 
6 unsigned long flags; 
7 Serut. SCaleerlist. “SG = MODs > prea loc S9gs 
8 
9 abo: werboset IO. work started”); 
10 
Tyi while (1) { 
12 spon ook :rgsave(&msb-»og lock, tlags):; 
bo 
14 Le, mnsbeasueed T Lush Cacher 4 
15 meb=rnsed, flush cache = false, 
16 spun unlock r1rqrestore(snmsbesq Lock, flags); 
17 ieb-oocache flush (msb)7 
LO continue; 
19 j 
20 
21 if (!msb->req) { 
22 msb=->req e blk fetch request (msb=>queue); 
23 if (!msb->req) { 
24 abg "werbose("rOov NO More: requests: SRELI]? 
29 sprn unlock trqresvore (cmsb=>q,- Lock, Clag) 
26 return; 
2 j 
28 j 
29 
30 span. unlock rfgrestore(smsbe^g look, flags); 
od 
97 /* If card was removed meanwhile */ 
33 if (!msb->req) 
34 return; 
39 
36 L* process: the: request: *7/ 
eyi abo. ver bese. ("TO processing New Lequese) y 
38 DIK rq map sg(msb-^queue, Mb >redqy 80); 
39 
40 lba = DLE ra DOS (mS SLE 
41 
42 sector div(lba, msb-»page size / 512); 
43 page = cdo. diy (be, msb=Apages- rmn block); 
44 
45 It (nq date. drrimsberegq) => READ) 
46 error = sb do. read .requestimsb, lbs, page; Sg, 
4] blk rq bytes (isb->req), «Leni; 
498 else 
49 error --msb do wrive requestimsb, iba, page, Eo 
SO DEK r Dytes (msb=>req), sben 
Du 
OZ spin. lock argqsave (¢msb=>q. lock, flags); 
53 
54 if (len) 
oO at (i. - Dik send: peg uest mno ps- Te Oy. ben) 
56 msb->req = NULL; 
9. 
58 if (error && msb->reg) { 
J9 dog verbose ("10¢ ending One Secor: Of che neguest “with: error"; 
60 TI iC. DIE Sndgcreguestiue Led. error, Mob- page SIE) 
61 msb->req = NULL; 
62 } 
63 
64 if (msb->req) 
65 人 ROSS request: still pending”); 
66 
67 Span ‘unlock nrgrestore(smsDb-e2q look, tlags); 
68 } 
69 } 


EI STC BUS ^. 265547 WIR] blk end request (msb->req, 0, len) 实际 上 告诉 了 上 层 该 请 
KAE. MRS At, NAH blk end request (msb->req, error, msb->page size) ， 把 出 错 原 因 
作为 第 2 个 参数 传 入 上 层 。 


第 38 行 调用 的 blk rq map sg O 函数 实现 于 block/blk-merge.c 文 件 。 代 码 清 蛙 13.11 列 出 了 该 函数 的 实 
现 中 比较 精华 的 部 分 ， 它 通过 rq for each bio () ~ bio for each segment O 来 遍历 所 有 的 bio， 以 及 所 有 
的 卢 段 ， 将 所 有 与 某 请 求 相 关 的 页 组 成 一 个 scattevgather 的 列表 。 


代码 清单 13.11 blk rq map sg © 函数 


Tine, SLE- Ta- map csoc(ostruüuct Lequesc queue ^g. truet reques. “ra; 
2 striuct Scatterlist XseolTst) 


4 Struct -scatterlist *sg — NULE; 
int nsegs = 0; 


Lf (fgq-»bro) 
nsegs = _-DLk Dios Map so (dg; Xqssbrio. Sglrsts- Gs); 


10} 

LF 

lostatrc- nt. LIK Doo- map SOU, requesu-Gucue. rgy SOUCO DLO Thre 
13 struct: scatterlist *sglrsct, 

14 Struct scabtLerlrst **Ssq) 

15{ 

16 Struct DLO- vec -bvec;. Dvprv = X NULE f; 

La Struct DVSO- Iter Iter; 

119 int nsegs, cluster; 

19 

20 nsegs = 0; 

Zl Cluster Gun quede Cluster) y 

22 eer 

2 LOP Gach. DIOUODIQ) 

24 DIo lor Gach Seqmentbvec, bio, ITST) 

2D ..blkcsegment 十 
20 &nsegs, &cluster); 

2 

2 9 return nsegs; 

29} 

30 

Slistatic: inline vord 

Du. lk Segment Map SOCSULUCU regeo Queue: tay Suruce DIO vec *DVSC, 


33 SEDUCE. SCacter lise: SSgLISU. SDIUSGL DLO vec FOID Y; 
34 SEruct cscartLerlnsrt. Reg; .LiL ^nsegs; nt "*"cluster) 
OUI 

26 

2) INL TOCOS = Deo Dy len; 

OD 

39 if (*sg && *cluster) { 

40 BE CU-SOg)-clemgtl 4 nbybtes- queue max segment s2zzeig)y 
41 goto new segment; 

42 

43 It (IBIOVEC PHYS MERGEABhE(DVDEV, -Dvec)) 

44 goto new Segment; 

45 lf 4IBIOVEC SEG BOUNDARY (Gr Dvprv, bDvec)) 

46 gouo- new Segment; 

47 

48 (*sg)->length += nbytes; 

49 } else { 

o0new segment: 

ope Lr (1*sq) 

oz *eg = sglist; 

5S else { 

54 es 

DD * If the driver previously mapped a shorter 

56 * list, we could see a termination bit 

efi * prematurely unless it fully inits the sg 

58 * table on each mapping. We KNOW that there 

99 x must be more entries here or the driver 

60 * would be buggy, so force clear the 

61 * permrnatcon Dit to avord- doing a full 

62 Apg anit- cable (): in drivers Sor seach. command. 
63 a 

64 eg urmerk,end(i*eg)r 

65 FeO: = xo MExc (SG) 

66 } 

67 

68 ag Seu page(s; DVCD page; nbyves;, byvec- by OIL eE)? 
69 (*nsegqs) ++; 

T } 

TX *bvprv - *bvec; 


—Jix su R Xy X F¥scatter/gatherFe MDMA REE, ‘ARES, EMS Tpci map sg O 或 者 
dma map sg (O 2KXtíT L3hscatter/gather7l] € DMA f, Z Jat] BBSTERJUI HI o 


13.6.2 不 使 用 请 求 队列 


使 用 请 求 队 列 对 于 一 个 机 械 磁 盘 设 备 而 言 的 确 有 助 于 捉 高 系 纺 的 性 能 ， 但 旦 对 于 RAMDISK、 
ZRAM (Compressed RAM Block Device) 等 完全 可 真正 随机 访问 的 设备 而 言 ， 无 法 从 高 级 的 请 求 队列 逻辑 
中 获 葵 。 对 于 这 些 设 备 ， 块 层 文 持 “ 无 队列 ”的 操作 模式 ， 为 使 用 这 个 模式 ， 驱 动 必 须 提供 一 个 “制造 请 
求 "函数 ， 而 不 是 一 个 请 求 处 理 函 数 ,，“ 制 造 请 求 ” 函 数 的 原型 为 : 


Static void xxx make requestistruct request queue “queue, Struct blo *b10); 


块 设备 驱动 初始 化 的 时 候 不 再 调用 blk init queue O ， 而 是 调用 blk alloc queue O 和 


blk queue make request () , xxx make request 则 会 成 为 blk_ queue make request O 的 第 2 个 参数 。 


xxx make request OO 函数 的 第 一 个 参数 仍然 是 “请 求 队 列 ”， 但 是 这 个 “请 求 队列 ”实际 不 包含 任何 请 
求 ， 因 为 块 讨 没有 必要 将 bio 调 整 为 请 求 。 因 此 ,“ 制 造 请 求 ” 函 数 的 主要 参数 是 bio 绪 构 体 。 人 代码 清单 13.12 
所 示 为 一 个 “ 制 千 请求” 函数 的 例子 ， 它 取材 于 drivers/block/zram/zram drv.c。 


代码 清单 13.12 “制造 请 求 ”函数 例 程 


lotdtrio void Zram Make reguesi (struct reguest queue. queue. Strucct bio. *b10) 


E 
3 T 
4 | Zram make request(zram, bio); 
S 
6j 
7 
OSLdLlc vod —-2ranm make. requestcisLtrucc ram "zramm; SCUO Do. 9516) 
91 
10 lat Offser; 
11 u321ndex; 
12 struct Dio vec byvec; 
La Struck OVC T ILOT 
14 
15 index = bio->bi iter.bi sector >> SECTORS PER PAGE SHIFT; 
16 Se = (blo=>br ATer.DL Sector € 
17 (SECTORS PER PAGE - 1)) << SECTOR SHIFT; 
18 
19 if (unlikely(bio-»bi rw & REQ DISCARD)) { 
20 zram Dro-discárd(zram, Index; Ofrser, bio); 
21 bio endio (Dio; 0); 
22 recur; 
4 } 
24 
25 bio for each segment(Dvec, Dic; 159r) 1 
ZO Lnt Max transfer Size = PAGE OIZE = Of sec; 
21 
28 Lt (bvec.bv len > Max trauserer suze) 4 
29 f^ 
30 * zram bvec rw() can only make operation on a single 
31 * zram page. Split the bio vector. 
32 ay 
33 struct Dro vec by; 
34 
eie Dv,.Dv page = Dvec.bv page; 
36 bv.bv len = max transter Size; 
34 by. DV OLISOL = .Dveoc.bv Oflset; 
38 
39 if (zram bvec rw(zram, &bv, index, offset, bio) « 0) 
40 qoto Out. 
41 
42 bv By len = DVCD Len. = Max UCransier size; 
43 DVD- OLL Ger = Max Lraunsrer Size; 
44 if (zram bvec rw(zram, &Dbv, index + Ty U; Dio) < 0) 


45 goto out; 


46 } else 
4] | (Zire vec: LW lan. DVC Indez; OQILISeba. bro) < 03 
498 GOLO- Quis 


50 update. positron (cindex; eorLrset, DVSO]; 
51 } 


59 set DIL(BIO UPTODATE, SSDIO-sDE Ll1399)7 
54 bro endrotblo, 0); 
J9 return 


OO pro TO errorum) 
上 述 代 但 通过 bio for each segment (©) 3X4VbiorP H] ff segement, w4 ii] Hjzram bvec rw O 完成 内 
FRAG. FAH. MEATS A. 


ZRAMÆ Linux h FH A FEI, ERNE AN TE KE AS WAPI ACHR aX, (oe AB A ee A 
动 压缩 功能 ， 从 而 可 以 达到 辅助 Linux 匿 名 页 的 交换 效 来 ， 变 相 “ 增 大 ”了 内 人 存 。 


13.7 实例: vmem disk JJ 
13.7.1 vmem disk 的 便 件 原理 


vmem disk 是 一 种 模拟 磁 礁 ， 其 数据 实际 上 存储 在 RAM 中 。 它 使 用 通过 vmalloc() 分 配 出 来 的 内 契 空 
间 来 模拟 出 一 个 人 磁盘， 以 块 设备 的 方式 来 访问 这 上 厂 内 存 。 该 驱动 古 对 字符 设备 驱动 章 广 中 globalmem 了 驱动 
的 块 方 式 改造 。 


加 载 vmem disk.ko 后 ， 在 使 用 上 默认 模块 参数 的 情况 下 ， 系 统 会 增加 4 个 块 设备 节点: 


# ls -1 /dev/vmem disk* 


brw-rw---- 1 root disk 252, 0 2H 25 14:00 /dev/vmem diska 
brw-rw---- 1 root disk 252, 16 2H 25 14:00 /dev/vmem diskb 
brw-rw---- 1 root disk 252, 32 2H 25 14:00 /dev/vmem diskc 
brw-rw---- 1 root disk 252, 48 2H 25 14:00 /dev/vmem diskd 


FLEA, mkfs.ext2/dev/vmem diska 命 令 的 执行 会 回馈 如 下 信息 : 


5 sudo mkfs.ext2  /dev/vmem diska 

mke2fs 1.42.9 (4-Feb-2014) 

Filesystem label- 

OS type: Linux 

Block size-1024 (log=0) 

Fragment size-1024 (log=0) 

Stride-0 blocks, Stripe width=Oblocks 

64 inodes, 512 blocks 

25 blocks (4.88$) reserved for the super user 
First data block=1 

Maximum filesystem blocks-524288 

l block group 

8192 blocks per group, 8192fragments per group 
64 inodes per group 

Allocating group tables: done 

Writing inode tables: done 

Writing superblocks and filesystem accounting information: done 


它 将 /dewvmem diska 格 式 化 为 EXT2 文 件 系 统 。 之 后 我 们 可 以 mount 这 个 分 区 并 在 其 中 进行 文件 读 写 。 


13.7.2. vmem diskJX z//E ER E] JU E E SEDE EV, 


vmem disk 驱动 的 模块 加 载 函 数 完 成 的 工作 与 13.3 节 给 出 的 模板 完全 一 致 ， 它 支持 “制造 请 求 ”(〈 对 应 
于 代码 清单 13.9) 、 请 求 队列 (对 应 于 代码 清单 13.10〉 两 种 模式 (请 注意 在 请 求 队列 方面 又 支持 简 、 繁 
两 种 模式 ) ， 使 用 模块 参数 request_mode 进 行 区 分 。 代 码 清 单 13.13 给 出 了 vmem disk 设 备 驱 动 的 模块 加 载 
Ej D ER AC 


代码 清单 13.13 vmem disk 设 备 驱 动 的 模块 加 载 与 凶 载 水 数 


lstalic void setup device(struct vmem disk dev *dev, ant whitch) 


an 
2 memset (dev, Uy Sizeot (Struce vmen disk dev):) 7 
4 dev-2s1ze = NSECTORS*HARDSECT SIZE; 
5 dev->data = vmalloc(dev->size); 
6 if (dev->data == NULL) { 
7 printk (KERN NOTICE "vmalloc failure.*n"); 
8 return; 
9 j 
10 Spin Jock amir (6dev=> lock); 
UM 
12 J> 
13 * The I/O queue, depending on whether we are using our own 
14 * make request IuncCion OF NOL. 
iks EJ 
16 switch (request mode) { 
17 case VMEMD NOOURBUb: 
18 dev->queue = blk. alloc queue(GFP.KNERNEL); 
19 if (dev->queue == NULL) 
20 goto out vires; 
Al blk queue make request (dev->queue, vmem disk make request); 
zc break; 
2 default: 
24 printk(KERN NOTICE "Bad request mode $d, using simple\n", request mode); 
2 case VMEMD QUEUE: 
Z6 dev->queue = blk init queue(vmem disk request, &dev->lock); 
21 if (dev->queue == NULL) 
28 SOTO Out Vres; 
2 break; 
30 ) 
Cu blk:queue logical block size(dev-»queue, HARDSECI SIAE)? 
3z dev->queue->queuedata = dev; 
33 
34 dev->gd = alloc disk(VMEM DISK MINORS) ; 
35 if (!dev->gd) { 
36 printk (KERN NOTICE "alloc disk failure\n"); 
2T goto out vfree; 
38 ) 
39 dev->gd->major = vmem disk major; 
40 dev->gd->first minor = which*VMEM DISK MINORS; 
41 dev->gd->fops = &vmem disk ops; 
42 dev->gd->queue = dev->queue; 
43 devesgde^privarte daba = dev; 
44 Siprinta (cdev-ogd=-edisk name, 32, “vem diskeo" ,. which F Tany 
45 See capacrtvidev--ga, NSECTORS*(HARDSECT SIZE/KERNEL SECTOR SIZE) ); 
46 add: disk(dev->gd) 7 
4] return; 
48 
49out vfree: 
50 if (dev-»data) 
c vfree(dev-»data); 
32} 
53 
54 
99Starioc ont Ani Vmem disk tnt (yo1d) 
5641 
D int 17 
58 
09 vmem disk major = register blkdev(vmem disk major, "vmem disk"); 
60 if (vmem disk major <= U) { 
61 printk (KERN WARNING "vmem disk: unable to get major number\n"); 
62 return -—-EBUSY; 
63 ) 
64 


65 devices = kmalloc(NDEVICES*sizeof (struct vmem disk dev), GFP KERNEL); 


66 if (!devices) 


67 JOLO D0 Un EoI her, 

68 för {L =- 03. a. < NDEVICES: LFF) 

69 Setup. CSvice(devi1ces: F ae de 

70 

pall return 0; 

42 

TOOUt UNnBeOi Ss cer: 

74 unregrster Dplkdevivmem dusk mayor; “sbd"); 
T9 return -ENOMEM; 

76} 


TX4module- anit. (vmen disk INI)? 


注 昌 上述 代码 的 第 16~30 行 ， 我 们 实际 上 文 持 两 种 IO 请 求 模 式 ， 一 种 是 make request, 53 —FPZE 
request queue. make request 的 版 本 和 朋 接 使 用 vmem disk make request © 来 处 理 bio， 而 request queue] fix 
本 则 使 用 vmem disk request 来 处 理 请 求 队列 。 


13.7.3 vmem disk 设 备 驱 动 的 block_device operations 


vmem _disk 提 供 block_device_operations 结 构 体 中 的 getgeo() 成 员 函 数 ， 代 但 清单 13.14 给 出 了 
vmem disk 设 备 驱 动 的 block device operations 结 构 体 定义 及 其 成 员 函 数 的 实现 。 


代码 清单 13.14 vmem disk 设 备 驱 动 的 block device operations 44] f /v. EV, va PKI% 


keraio rnt vem. diok getgeo(struce Dileck device ^Ddev, struct hd geometry *Geo) 


Z{ 

3 long size; 

4 struct vmem disk dev *dev = bdev-»bd disk->private data; 
S 

6 size = dev->size* (HARDSECT SIZE/KERNEL SECTOR SIZE); 
7 geo->cylinders = (size & ~0x3f) >> 6; 

8 geo->heads = 4; 

9 geo->sectors = 16; 
10 geo->start = 4; 
11 
I2 return 0; 
13] 
14 
lostatro struct block device operations vmem disk ops = 1 
16 .getgeo — vmem disk getgeo, 


17]; 


13.7.4 vmem disk 的 IO 请 求 处 理 


ftvmem disk 张 动 中 ， 通 过 和 模 芯 参数 request mode 的 方式 来 文 持 3 种 不 同 的 请 求 处 理 模 陈 以 加 深 旋 者 对 
它们 的 理解 ， 代 码 清 单 13.1$ 列 出 了 vmem disk 设 备 张 动 的 请 求 处 理 代 码 。 


代码 清单 13.1$ vmem disk 设 备 驱 动 的 请 求 处 理 函 数 


L~ 

2 * Handle an I/O request. 

wy 

dotati void vmem disk transter(struct Viei disk dev “dev, Unsigned long sector, 
t unsigned long nsect, char *buffer, int write) 

6 { 

7 unsigned Long orfset = secUor*KERNEL SECTOR SIZE; 

8 unsigned long nbytes = nsecc* KERNEL SECTOR, SIZE; 

9 

10 if ((offset + nbytes) > dev->size) { 

11 printk (KERN NOTICE "Beyond-end write (%ld %ld)\n", offset, nbytes); 
12 return; 

123 ) 

14 if (write) 

is memcpy (dev->data + offset, buffer, nbytes); 

16 else 

17 memcpy (buffer, dev->data + offset, nbytes); 

18} 

19 
207 
21 * Transfer a single BIO. 
22. UJ 
29SLgtrco Int vnenm disk rer DLiO(SLtEUcL Viienm disk dev "dev, Struct bio DIO) 
24 { 
29 SLruct Dio vec: bvec; 
26 SULUCE DUSC TOE ILOT 
"A OOCLOI X Secbor = Dio obi LESLTDI SOCLDOPD; 
28 
29 bio fOr seach segment(bvec, bio, weer) 1 
30 char “burier =. 110 kmap aromic( bio, Iter) 
31 vinem disk transter(dev, sector, bro Cur Dbyves (bic) >> 2, 
32 puller; Dio data dIS(DLQ) == WRITE) 
Gie SeCLOr se DIO Cur DVLeSUQDID) $e 9 
34 | bio kunmap atomic (buffer); 
35 } 

36 return 0; 

37} 

38 

3977 

TU. * The request queue version. 

A] 97 

d28LaLrlc Void vmem dLsk-request(struct request queues 4) 
431( 

44 struct request *req; 

45 Struct ilg "DIO; 

46 

47 while ((req = blk peek request(q)) != NULL) { 

48 struct viem disk dev *^dev = reg -rg disk=>private data; 
49 Lf Credq-comd type i REO TYPE ESO) 1 

50 printk (KERN NOTICE "Skip non-fs request 4n"); 
51 DLE Start Pequest (req); 

D DIK end request all (reg, -ErDo); 

mo continue; 

54 ) 

55 

56 Dik start request (req) ; 

57 Eq for each bio(bio, reg) 

9o vmem disk xfer bio(dev, bio); 

pe . Dik ena request all«reg, 0)7 

60 ) 

61] 

62 

63 

64/* 

65 * The direct make request version. 

06. wy 

OlSLtatrc vold vmem disk make request(struct request queue "dq, struct DIO *b10) 
681 

69 Struct wmen dick dev ^dev = g-2gqueuedatas 


70 int Status; 


a 


T2 Status = vmem disk xfer bDio(dev; blio)? 
d pro endro(brio, Status); 
74] 


第 4 行 的 vmem disk transfer O SER ECSCHJRBETEI/OSRÍE. (对 于 本 例 而 言 ， 束 是 一 个 memcpy) . 23 
行 的 vmem disk xfer bio O 图 数 调用 它 来 完成 一 个 与 bio 对 应 的 便 件 操作 ， 在 完成 的 过 程 中 通过 第 29 行 的 
bio for each segment O 展开 了 该 bio 中 的 每 个 Segment。 


vmem disk make request OO 直接 调用 vmem disk xfer bio O 来 完成 一 个 bio 操 作 ， 而 
vmem disk request () 则 通过 第 47 行 的 blk peek request © 先 从 request queue 拿 出 一 个 请 求 ， 再 通过 第 S7 
行 的 _rq for each bio () 从 该 请 求 中 取出 一 个 bio， 之 后 调用 vmem disk xfer bio O 来 完成 该 IO 请 求 ， 
图 13.4 朱 述 了 这 个 过 程 。 


vmem disk request():blk peek request() 


rq foreach bio():vmem disk xfer bio() 


rq for each bio():vmem disk xfer bio() 





bio for each segment): 
vmem disk transfer() 


bio for each segment(): 
vmem disk transfer() 





bio for each segment(): 
vmem disk transfer() 











图 13.4 vmem disk 的 VO 处 理 过 程 


13.8 Linux MMC AZ 


Linux MMC/SD 存 储 卡 是 一 种 典型 的 块 设备 ， 它 的 实现 位 于 drivers/mmc。drivers/mmc 下 义 分 为 card、 
core 和 host 这 3 个 子 目 录 。card 实 际 上 跟 Linux 的 块 设备 子 系统 对 接 ， 实 现 块 设备 驱动 以 及 完成 请 求 ， 但 是 具 
体 的 协议 经 过 core 层 的 接口 ， 最 终 通 过 host 完 成 传输 ， 因 此 整个 MMC 了 于 系统 的 框 染 结构 如 图 13.5 所 示 。 力 
外 ，card 目 录 除 了 实现 标准 的 MMC/SD 和 存储 卡 以 外 ， 该 目录 还 包含 一 些 SDIO 外 设 的 卡 驱动 ， 如 
drivers/mmc/card/sdio uart.c。core 有 目录 除了 给 card 提 供 接口 外 ， 实 际 上 也 定义 好 了 host 驱 动 的 框架 。 


文件 系统 


MMC/SD card 层 
( 块 设备 ) 


MMC/SD core 层 
(通信 协议 ) 


MMC/SD host 层 


13.5 Linux MMC Zt 





drivers/mmc/card/queue.cH']mmc init queue () 函数 通过 blk init queue (mmc request fn, lock) WE [f 


VK AE K ZI mmc. request fn ©) : 


int mmo init Queue (Struct mmc queue "mg, Struct mmc card. Foard; 
SOLNLOCK Lt Lock; const Char *subiiame) 


{ 


mg- guste = bLk init queue(mmco request tn, Lock); 


而 mmec request fn O PRIZE ZEE EE SMMCXT NLIS] PLZ ZERO AE PIS KR, IL KZ BET NUT] IRE BRL ZAC 


mmc queue thread () 执行 与 MMC 对 应 的 mq->issue fn (mq, req) : 


static int mmc queue thread(void *d) 


{ 


req = DIR fetch request (qd); 
mq-»mqrq cur->req = req; 
Lr {req Lh] me-magrg prev=>reg) 1 
set current state(TASK RUNNING); 
cmd. tlago = reg teq-7cmd, lagg = 07 


mq->issue fn(mq, req); 


return 0; 


对 于 存储 设备 而 言 mq-issue fn O r&Z&fRISIdrivers/mmc/card/block.cH" HJmme blk issue rq © : 


stallo Struce, mic DLE data. mme Dik alloc redgistrucb mmo card “Card, 
struct device *parent, 


SeCUtOF C SIZe9; 

bool defradqult.To;, 
const Char *subname, 
Int ares type) 


imde-queue.rssue In = mmc. blk rssue.rg; 
md->queue.data = md; 


其 中 的 mmc blk issue rw rq O 等 函数 最 终 会 调用 drivers/mmc/core/core.c 中 的 mme start req () 这 样 


的 函数 : 


Statue: Int me Dk: wesue: wg (Suruct: mmc. queue. mag, Struct request Trde) 


{ 


Greg = NMG Scare. req(card=-hose, req, (ine *) eStats), 


mmc start req ) RIER X. Wi Ahost4K3) yhost->ops->pre req () ~ host->ops->enable () . host->ops- 
>disable () . host->ops->request O SEKR PRA, X pK TKI drivers/mm/host H 5& F - 


host->ops 实 际 上 是 一 个 MMC host 操 作 的 集合 ， 对 应 的 结构 体 为 mmc host ops， 它 的 定义 如 代码 清早 
13.16 所 示 。MMC 主 机 驱动 的 主体 工作 就 是 实现 该 结 构 体 的 成 员 函 数 ， 如 drivers/mmc/host/mmc spi.c、 


drivers/mmc/host/bfin sdh.c、drivers/mmc/host/sdhcei.c 等 。 


代码 清单 13.16 mmc host ops 结构 体 


Iobrucc DR Nost ODS X 


2 es 

5 * 'enable' is called when the host is claimed and 'disable' is called 
4 * when the host is released. 'enable' and 'disable' are deprecated. 
5 

6 二 

Int (disable; (Struct mic host SNOSE); 

8 

9 ^ Le gecoptronal. Lor the Host to amplement pre req and post reg n 
L0 * order to support double buffering of requests (prepare one 

El * request while another request is active). 

T2 * pre reg() Must always be followed by a post. reqi). 

1.3 ^" "DO Undo e Call- made to- pre redi. Cali. post Teg) wien 

14 * a nonzero err condition. 

15 a 

i6 vord ("POSE Meg) (struck mmo Nose. “host, aS tBUct mmo Sequest “red, 
T int err); 

15 VOLA (“PES rFed)TtsSUcEUCEt mme Nost Nost; - SELUGE. mmocsedguest Treg; 
19 DOOL 19- Tirst req)? 
20 void (^reauesrt)Yistruct mme Bost FNO SC Ucr Mme request, *Leq).; 
2l s 
22 * Avoid calling these three. functions too often or in a "fast path", 
23 * since underlaying controller might implement them in an expensive 
24 * and/or slow way. 
zo 5 
26 * Also note that these functions might sleep, so don't call them 
21 * in the atomic contexts! 
2D m 
29 -Returny Values. bor the get Xo cagllbDaoX SmBouko- De: 
30 D Ofor a read/write card 
4 d LOY a read-only Card 
32 3 -ENOSYS when not supported (equal to NULL callback) 
93 m or a negative errno value when something bad happened 

34 " 

Gis Return. Values for Che get cd.callback Should be 

36 ^ Ofor a absent card 

34 m" lfor a present card 

Sie X -ENOSYS when not supported (equal to NULL callback) 

5.9 ^ or a negative errno value when something bad happened 


40 
41 
42 
43 
44 
45 
46 
4] 
48 
49 
50 
Od 
De 
5:3 
54 
S) 
56 
97 
56 
59 
60 
61 
62 
cone: 


T 


void (moer TO (Srnect. Amo TOSE SDOSt Struct. MMe 05 7 509)7 
Live ("get ro) (Struct. mmo MOst FROS)? 
Lit (^get CO) (ST CUCL, MMO- NOSE. TNOSTI? 
void (^endble SONO. mro (Struce muc-hosu not Tine euable); 


A optional callback for HC quirrks */ 
STO (nrbt Card) (struct mmo nost *DOSLt, struck mmo card *card); 


LE (mStar S19nglL voltage Switch) (struct mmc nost “host, UU mnc: LOS ros); 


p* Check if the card 2s. pulding datio] ow *7 
To (Card. Usy) (SCEuet MMO Host, “hosts; 


/* The tuning command opcode value is different for SD and eMMC cards *7 
LINE (^execqbe CUNEO) {OL UCE: mme host *host, 195209cOOXB2). 


/* Prepare HS400target operating frequency depending host driver */ 


Tt (^prepasre no400 Tunang) (struct mmc host “nosis Struct mme los er 站: 

Live (Select drive SLrenoth Un roned int Max dtr, Smt-hDost dry; Ine are: cw) 
Toad (pw eo) (Struct mmeo Nost ns) 

void (^Oandgsevyent)istsuoct mmc host SHOSTI 


H F HAKS BLSoC WA ik HJ MMC/SD/SDIOF fill 45 2SDHCI (Secure Digital Host Controller 
Interface) , PUL Zi Be jH drivers/mme/host/sdhci.cJkay, (RB Hr d e ye n] bt — 2 EF 


drivers/mmce/host/sdhci.cx€ Y. HJ drivers/mmc/host/sdhci-pltfm.cHz£ZE . 


13.9 mz 


芯 设 备 的 IO 操作 方式 与 字符 设备 的 存在 较 大 的 不 同 ， 因 而 引入 了 request queue、request、bio 等 一 系 
列 数 据 结构 。 在 整个 块 设备 的 /O 操 作 中 ， 叶 和 罕 始 终 的 束 是 “请 求 " 字符 设备 的 IO 操作 则 是 直接 进行 不 绕 
棕 ， 其 设备 的 IO 操作 会 排队 和 整合 。 

驱动 的 任务 是 处 理 请 求 ， 对 请 求 的 排队 和 整合 由 LO 调度 算法 解决 ， 因 此 ， 块 设备 驱动 的 核心 束 是 请 
求 处 理 函 数 或 “制造 请 求 ”函数 。 

尽管 在 块 设备 驱动 中 仍然 存在 block device operations 结 构 体 及 其 成 员 函 数 ， 但 不 再 包含 读 写 类 的 成 员 
函数 ， 而 只 是 包含 打开 、 释 放 及 LO 控制 等 与 具体 读 写 无 关 的 函数 。 

块 设 备 驱 动 的 结构 相对 复 林 ,但 驻 运 的 是 ， 块 设备 不 像 字符 设备 那样 包罗 万 象 ， 它 通 第 束 是 存储 人 设 
备 ， 而 且 驱 动 的 主体 已 经 由 Linux 内 核 提 供 ， 人 针对 一 个 特定 的 便 件 系统 ， 驱 动工 程 师 所 涉及 的 工作 往往 只 
是 编写 极其 少量 的 与 便 件 平台 相关 的 代 但 。 


1495 ” Linux 网络 设备 驱动 
本 章 导 读 


网 络 设备 是 完成 用 尸 数 据 包 在 网 络 媒介 上 友 壕 和 接收 的 设备 ， 它 将 上 层 协 议 传 违 下 来 的 数据 包 以 特定 
的 如 介 访问 控制 方式 进行 友 送 ， 并 将 接收 到 的 数据 包 传 好 给 上 层 协 议 。 


与 字符 设备 和 块 设备 不 同 ， 网 络 设备 并 不 对 应 于 /dev 目 录 下 的 文件 ， 应 用 程序 最 终 使 用 套 接 字 完成 与 
网 络 设备 的 接口 。 因 而 在 网 络 设备 号 上 并 不 能 体现 出 “一 切 都 是 文件 "的 思想 。 


Linux 系 统 对 网 络 设备 驱动 定义 了 4 个 层次 ， 这 4 个 层次 为 网 络 协议 接口 层 、 网 络 设备 接口 层 、 提 供 实 
际 功 能 的 设备 驱动 功能 层 和 网 络 设备 与 媒介 层 。 


14.1 廊 讲解 Linux 网 络 设备 驱动 的 层次 结构 ， 搬 述 其 中 4 个 层 饮 各 目的 作用 以 及 它们 是 如 何 协 同 合作 以 
实现 问 下 驱动 网 络 设备 价 件 、 同 上 提供 数据 包 收 友 接 口 能 力 的 。 


14.2~14.8 市 主要 讲解 设备 驱动 功能 层 的 各 主要 疯 数 和 数据 结构 ， 包 括 设 备注 册 与 注销 、 设 备 人 切 始 
人 化、 数据 包 收 发 函数 、 打 开 与 释放 函数 等 ， 在 分 析 的 基础 上 给 出 了 抽象 的 设计 模板 。 


14.9 节 介绍 DM9000 网 卡 的 设备 驱动 及 其 在 具体 开 友 板 上 的 移植 。 


14.1 Linux 了 网 络 设备 驱动 的 结构 


Linux 网 络 设备 张 动 程序 的 体系 结构 如 图 14.1 所 示 ， 从 上 到 下 可 以 划分 为 4 属 ， 依 次 为 网 络 协议 接口 
屋 、 网 络 设备 接口 技 、 所 供 实际 功能 的 设备 驱动 功能 层 以 及 网 络 设备 与 烘 介 层 ， 这 4 层 的 作用 如 下 所 示 。 


1) 网 络 协 议 接 口 层 同 网 络 层 协议 提供 统一 的 数据 包 收 发 接口 ， 不 论 上 层 协议 是 ARP， 还 是 卫 ， 都 通 
过 dey queue xmit OO) 图 数 发 送 数据 ， 并 通过 netif rx O 函数 接收 数据 。 这 一 层 的 存在 使 得 上 层 协议 独立 
于 具体 的 设备 。 


2) 网 络 设备 接 口 层 问 协 议 接 口 层 近 供 统 一 的 用 于 插 述 具体 网 络 设备 属性 和 操作 的 结构 体 net_device， 
该 结构 体 是 设备 驱动 功能 层 中 各 函数 的 容器 。 实 际 上 ， 网 络 设备 接口 层 从 宏观 上 规划 了 其 体操 作 人 硬件 的 设 
备 驱 动 功 能 层 的 结构 。 


3) 设备 驱动 功能 层 的 各 函数 是 网 络 设 备 接口 层 net device 数 据 结构 的 具体 成 员 ， 是 驱使 网 络 设 备 价 件 
完成 相应 动作 的 程序 ， 它 通过 hard start xmit €) 国 数 局 动 肥 大 操作 ， 并 通过 网 络 设备 上 的 中 断 甬 肥 接 收 
操作 。 

4) 网 络 设备 与 媒介 层 是 完成 数据 包 发 运 和 接收 的 物理 实体 ， 包 括 网 络 适 配 占 和 具体 的 传输 媒介 ， 网 


络 适 配器 被 设备 驱动 功能 层 中 的 函数 在 物理 上 了 驱动。 对 于 Linux 系 统 而 言 ， 网 络 设备 和 媒介 都 可 以 是 虚拟 
的 。 


数据 包 发 送 数据 包 接收 
dev_queue_xmit () netif_rx () 


网 络 协议 接口 层 


网 络 设备 接口 层 


dido 设备 驱动 功能 层 


网 络 物理 设备 媒介 网 络 设备 与 媒介 层 





图 14.1 Linux 网 络 设备 驱动 程序 的 体系 结构 


在 设计 具体 的 网 络 设 备 驱 动 程序 时 ， 我 们 需要 完成 的 主要 工作 是 编写 设备 驱动 功能 层 的 相 天 函数 以 十 
元 net_device 数 据 结 构 的 内 容 并 将 net_device 注 册 入 内 核 。 


14.1.1 网 络 协议 接口 层 


网 络 协 议 接 口 层 最 主要 的 功能 是 给 上 层 协 议 提供 透明 的 数据 包 发 运 和 接收 接口 。 当 上 层 ARP 或 IP 需 要 
有 发送 数据 包 时 ， 它 将 调用 网 络 协议 接口 层 的 dev queue xmit O 函数 友 送 该 数据 包 ， 同 时 需 传 递 给 该 函数 
一 个 指 同 struct sk _ buf 数据 结构 的 指针 。dev_ queue xmit O 图 数 的 原型 为 : 


int dev queue xmlit(Sbcruct sk: burt *skb) 7 


同样 地 ， 上 层 对 数据 包 的 接收 也 通过 加 netif rx O KAUR — struct sk buft 数 据 结构 的 指针 来 完 
成 。netif rx ©) 函数 的 原型 为 : 


ine meti tx(Structe. Sk DULL *SEDOS 


sk buff 结 构 体 非常 重要 ， 它 定义 于 includelinux/skbuffh 文 件 中 ， 含 义 为 “ 套 接 字 绥 冲 区 ”， 用 于 在 Linux 
网 络 子 系统 中 的 各 层 之 间 传 递 数 据 ， 是 Linux 网 络 子 系统 数据 传递 的 “中 枢 神 经 ”。 


当 及 这 数 据 包 时 ，Linux 内 核 的 网 络 处 理 个 其 必须 建立 一 个 包 人 要 传输 的 数据 包 的 sk_buff， 然 后 将 
sk _bufhiitcer RR, SJR fEsk_buff UH JB DK Efe Sce oA. EE, Ade ee A 
络 媒介 上 接收 到 数据 包 后 ， 它 必须 将 接收 到 的 数据 转换 为 sk_buff 数 据 结 构 并 传递 给 上 层 ， 各 层 剥 去 相应 的 
协议 头 直 至 交 给 用 户 。 代 码 清单 14.1 列 出 了 sk_ buft 结 构 体 中 的 几 个 关键 数据 成 员 以 及 描述 


代码 清单 14.1 sk buf 结构 体 中 的 几 个 关键 数据 成 员 以 及 描述 


1/** 

z. 078 SUEHOLt Sk DULI = Socket Düs£er 

Qo @next: Next buffer in list 

4 * @prev: Previous buffer in list 

E i @len: Length of actual data 

o = Gdata len: Data length 

qom @mac len: Length of link layer header 

e Chdr len? writable header length of cloned ‘skb 

S x @csum: Checksum (must include start/offset pair) 

I0 = @csum start: Offset from skb->head where checksumming should start 
lg ~ Gcsum offset: Offset from csum start where checksum should be stored 
d. m priority: Packet queueing priority 

I wy @protocol: Packet protocol from driver 

l4 5 @inner protocol: Protocol (encapsulation) 

LS = @inner transport header: Inner transport layer header (encapsulation) 
lo * Ginner network header: Network layer header (encapsulation) 
Le 和 @inner mac header: Link layer header (encapsulation) 

lo * GLransport header: Transport layer header 

19 m @network header: Network layer header 
Z0. * @mac header: Link layer header 
zd. > @tail: Tail pointer 
Z2. 7 Qend: End pointer 
23 * ahead: Head of buffer 
24 * @data: Data head pointer 
gs wes 
26 
2 SEEUCR SR DULL 4 
28 /* These two members must be first. */ 
29 Struct sk Durr *next; 
30 Struce Sk burt *prev; 
24. 
32 P 
33 unsigned int len, 


34 data Len; 


AU | ulo mac len, 


36 has len; 

31 Pa 

38 . u32 BLLOrLEV, 

29 Pd 

40 |  beló protocol; 

41 

42 

43 

44 | | belo inner protocol; 

45 | ulo inner transport header; 
46 | ulo inner network header; 
4] | ulo inner mac header; 

48 | | ul6o transport header; 

49 | ulo network header; 

20 | ulo mac header; 

21 /* These elements must be at the end, see alloc skb() for details.  */ 
De ck burt data t Gaul. 

99 sk DUEL. data t end; 

54 unsigned char *head, 

39 *data; 

26 

ON 


如 图 14.1 所 示 ， 无 其 值得 注 意 的 是 head 和 end 指 同 绥 剖 区 的 头 部 和 尾部 ， 而 data 和 tail 指 癌 实 际 数据 的 头 
部 和 尾部 。 每 一 层 会 在 head 和 data 之 间 项 到 协议 头 ， 或 痢 在 tail 和 end 之 间 读 加 新 的 协议 数据 。 





Se S E odd spun 

struct s k buf Ei p 3J. 部 zi lia] 
unsigned char *head; 
unsigned char *data; 


unsigned char *tail; 


unsigned char M uu 








尾部 空间 











图 14.2 sk bufff 和 head、data、taill、end 指 针 


下 面 我 们 来 分 析 套 接 字 组 冲 区 涉及 的 操作 函数 ，Linux 套 接 字 缓冲 区 支持 分 配 、 释 放 、 变 更 等 功能 函 
A. 


(1) 分 配 
Linux AZ FH FOME zr Zh CEP] BL 208 : 


struct Sk butt “alloc skb (unsigned int len; gip b Priority); 
Suruct Sk DUIL dev alloc sko(uns19oned anc Len)? 


alloc skb O PRA) AC SEB Pr BH DCRI— PAX, Balen VATA LX A ZS TBI AZ, 388 
LILI CACHE BYTES-£ 5 OST ARMZJ32) 对 齐 ， 参 数 priority 为 内 存 分 配 的 优先 级 。dev alloc skb © 
函数 以 GFP_ATOMIC 优 先 级 进行 sSkb 的 分 配 ， 原 因 是 该 函数 经 和 沼 在 设备 驱动 的 接收 中 汤 里 被 调用 。 


(2) 释放 


Linux 内 核 中 用 于 释放 僚 接 字 绥 冲 区 有 的 函数 有 : 


ee 

VOLO ew Kiree- OkO C UC Sk. burt *Sskb)i7 
vord dev -Kiree: SED Xrqiscruct Sk burr tsk); 
vonddev tree sko any (Struct sk burr *skb); 


上 述 函 数 用 于 释放 被 alloc_ skb O 函数 分 配 的 套 接 字 缓冲 区 和 数据 缓冲 区 。 


Linux 内 核 内 部 使 用 kree skb ©) 函数 ， 而 在 网 络 设备 驱动 程序 中 则 最 好 用 dev kfree skb © 、 
dev kfree skb irq © 或 dev kfree skb any O 函数 进行 套 接 字 绥 冲 区 的 释放 。 其 中 ，dev_kfree skb © PW 
数 用 于 非 中 断 上 下 文 ，dev_ kfree skb irq O 冰 数 用 于 中 汤 上 下 文 ， 而 dev_kfree skb any () RACE Wr 
和 非 中 断 上 下 文中 皆 可 采用 ， 它 其 实 是 做 一 个 非常 简单 的 上 下 文 判 晰 ， 然 后 再 调用 
”dev kfree skb irq OO 或 者 dev kfree skb OO ， 这 从 其 代码 的 实现 中 也 可 以 看 出 : 


vord.. dev Kiree skb any(struct sk DUIL ^Skb, enum Sko Iree reason reason) 
{ 
Xp sti, ag) LI orge: dicated) 
“ov KEES SEU -ITIS kD; Teaco) *s 
else 
dev kfree skb(skb); 
} 
(3) 40 


在 Linux 内 核 中 可 以 用 如 下 函数 在 绥 冲 区 尾部 增加 数据 : 


unsigned Char Foke Puc rrue sk DULE “Sk, Unsroned ane denos 


它 会 导致 skb->tail 后 移 len (skb->tail+=len) ， 而 skb->len 会 增加 len 的 大 小 〈skb->len+=len) . 3Hi4$, Æ 
设备 张 动 的 接收 数据 处 理 中 会 调用 此 函数 。 


在 Linux 内 核 中 可 以 用 如 下 函数 在 绥 冲 区 开 尖 增加 数据 : 


üUnergnDed oer ee 


导致 skb->data 亲 移 len (skb->data-=len) ， 而 skb->len 会 增加 len 的 大 小 Cskb->lent=len) . -512 P 
数 的 功能 完成 相反 的 函数 是 skb pull O ， 它 可 以 在 缓冲 区 开头 移 除数 据 ， 执 行 的 动作 是 skb->len-=len、 


skb->datat=len. 


对 于 一 个 空 的 缓冲 区 而 言 ， 调 用 如 下 函数 可 以 调整 缓冲 区 的 头 部 : 


Static Inline Volo SkD reservetsvUruect Sk DUEE WNSED;. anu, en); 


它 会 将 skb->data 和 skb->tail 同 时 后 移 len， 执 行 Skb->data+=len、skb->tail+=len。 内 核 里 存在 许多 这 样 的 
ARAH: 


skb-alloc skb(lentheadspace, GFP KERNEL); 


SKD reserve(sSKD, headspace); 

SKD PULTS KD, Len) 7 

memcpy fromis:(skb=-data,;datay,.len) ; 
pass to mM DrEOlcece isk); 


上 述 代 三 先 分 配 一 个 全 新 的 sk bu 仔 ， 接 独 调 用 skb reserve O 膳 出头 部 空间 ， 之 后 调用 skb put O 腾 
出 数据 空间 ， 然 后 把 数据 复制 进来 ， 最 后 把 sk _bu 仔 传 给 协议 栈 。 


14.1.2 网络 设 备 接 口 层 


网 络 设备 接口 层 的 主要 功能 是 为 干 变 万 化 的 网 络 设备 定义 统一 、 抽 和 象 的 数据 结构 net device 结 构 体 ， 
以 不 变 应 万 变 ， 实 现 多 种 使 件 在 软件 层次 上 的 统一 。 


net_device 结 构 体 在 内 核 中 指 代 一 个 网 络 设备 ， 它 定义 于 include/linux/netdevice.h 文 件 中 ， 网 络 设备 驱 
动 程序 只 和 需 通 过 填 序 net_device 的 其 体 成 员 并 注册 net_device 即 可 实现 人 硬件 操作 函数 与 内 核 的 挂 接 。 


net device 是 一 个 巨大 的 结构 人体， 定义 于 include/linux/netdevice.h 中 ， 包 含 网 络 设 备 的 属性 描述 和 操作 
接口 ， 下 面 介绍 其 中 的 一 些 关 键 成 员 。 


(1) 全 局 信息 


char name[IFNAMESIZ]; 


name 是 网 络 设 备 的 名 称 。 
(2) 便 件 信息 


unsigned long mem end; 
unsigned long mem start; 


mem start 和 mem _ end 分别 定 义 了 设备 所 使 用 的 共享 内 存 的 起 始 和 结束 地 址 。 


unsigned long base addr; 
unsigned char irq; 
unsrzgned Char 11 port 
unsigned char dma; 


base_ addr 为 网 络 设备 LV/O 基 地 址 。 
irq7J i d 15 H HJ FP Br e 


if portfR XE 9m Ei, BME Sm Hx es WI. "DIR I x 
IF PORT 10BASE2 ( 同 轴 电 统 ) 和 IF PORT IOBASET ONR) ， 则 可 使 用 该 字段 。 


dma 指 定 分 配给 设备 的 DMA 通 道 。 
(3) 接口 信息 


unsigned short hard header len; 


hard header lenié M24 dE MIFARE, EARNE RRRA, VA BY 


ETH HLEN， 即 14。 


unsigned short type; 


type 十 接口 的 使 件 类 型 。 


unsigned mtu; 


mtu 指 最 大 传输 单元 (MTU) 。 


unsigned char “dev addr; 


用 于 存放 设备 的 便 件 地 址 ， 张 动 可 能 提供 了 设置 MAC 地 址 的 接口 ， 这 会 导致 用 户 设 置 的 MAC 地 址 等 
存 入 该 成 员 ， 如 代码 清单 14.2driversmnetethernetmoxa/moxart_ etherc 中 的 moxart set mac address () 函数 所 


不 。 
代码 清单 14.2 set mac address () 函数 


lstatric 1nt moxart set mac address (struct net device *ndev, vord *addr) 
2{ 


2 SLEHOLC SOCKaCdr *aQgoOPess = addr; 

B ix (Lis valid etuer addr (address--sa datae). 

6 return -EADDRNOTAVAIL; 

7 

8 memcpy (ndev= 2dev ador, address=>sa data, ndev--aodrÉ len); 
9 Moxart update mac address (ndev) ; 

10 

11 peruras U; 

12] 


上 述 代码 完成 了 memcpy ©) 以 及 最终 便 件 上 的 MAC 地 址 变更 。 


unsigned short flags; 


flags 指 网 络 接口 标志 ， 以 IFF_〈Interface Flags) 开头 ， 部 分 标志 由 内 核 来 管理 ， 其 他 的 在 接口 初始 化 
时 被 设置 以 说 明 设 备 接口 的 能 力 和 特性 。 接 口 标志 包括 IFF_ UP ( 当 设 备 被 激活 并 可 以 开始 发 送 数据 包 
时 ， 内 核 设置 该 标志 ) . IFF AUTOMEDIA (设备 可 在 多 种 媒介 间 切 换 ) ~ IFF BROADCAST (人 允许 广 
播 ) 、IFF DEBUG (调试 模式 ， 可 用 于 控制 printk 调 用 的 详细 程度 ) 、IFF LOOPBACK (回环 ) 、 

IFF MULTICAST (FHE) ~ IFF NOARP 〈 接 口 不 能 执行 ARP) 和 IFF POINTOPOINT 接口 连接 到 
点 到 点 链 路 ) 等 。 


(4) Bese TRIE eh BL 


const SLIUOL net device Ops ^neutdev Ops; 


区 结构 体 是 网 络 设备 的 一 系列 硬件 操作 行 数 的 集合 ， 它 也 定义 于 include/linux/netdevice.h 中 ， 这 个 结构 
体 很 大 ， 代 码 清单 14.3 列 出 了 其 中 的 一 些 基础 部 分 。 


代码 清单 14.3 net device ops 结 构 体 


Lobrmet net device ops, A 


2 TT (“ndo TALC (Struck nec device dev) 
3 void (^ndo nnnLt) (SETCE net device *dev)s 
4 Lt (^ndo Open) (rine: net Jevice dev) 
5 Lit (endo SCOPI (sb ruce net device: "dev 
6 = (nao Start Xxmrb) StrUuct Sk DUL Ask, 
SEE 
8 ul6 (^ndo selece queus)istruct mer. device *dgev, 
9 Struct Sk DUI vex 
10 VOL “ACCS. EL 
dm select quede Callback t fsliback 7 
12 void (7 nde: change re Lage) (Seeuck men device: dev, 
13 int flags) 7 
14 void (TN eut rx Mote). (SErucr nes device "dew y 
15 RORE (endo SOL Mac Soress) (Suruel net “device *dev, 
16 void. *addr) ; 
TA int (^ndo validate addr) (Struct. net device. devy 
18 THE |^ndo do TOCEL) (Struce Neb. Cevice -*dev, 
19 Struct 于 本 下 全 二 UTI. ant: Xo. 
20 
之 小] 


ndo open O 函数 的 作用 是 打开 网 络 接口 设备 ， 获 得 设备 需要 的 1/O 地 址 、IRQ、DMA 通 道 等 。 
stop O 图 数 的 作用 是 俘 止 网 络 接口 设备 ， 与 open O BACHE AAR 


tae, d(*ndo ee 


ndo start xmit © 函数 会 启动 数据 包 的 发 送 ， 当 系统 调用 驱动 程序 的 xmit 函 数 时 ， 需 要 向 其 传 入 一 个 
sk buft 结 构 体 指针 ， 以 使 得 驱动 程序 能 获取 从 上 层 传递 下 来 的 数据 包 


vord (“nd Ux Lrmeout)dstbucc- Net device: devy 


SAE ELA ACTA FET INT, ndo tx timeout O RIALS AES HI. HARARE aA LIKE 
ENC EET Jr 29] B ES T rt HR RSH) 28 t BITE TAS e 


SUCLUCE met device Seats (rdo Get Staus) dtsbtruct net device 09v) 


ndo get stats ) PAROS 33 Pd 28 Vc HAS IS, ERE Anet device stats 结 构 体 指针 。 
net device statsZa TJ prr. STEARNS TR Ao AIK AGAS LAC. TECH ARS. VEM 
14.8711. 


Ine "endo: do TOCE (SELUCe. net dewvsce “Oey, O rac IIDegq 355. LTC. Cm); 
Ine, (Ando. See -CONTEG) Struct net device “dev, SUCPUCL 2imap map); 
int Indo see mac- address) (Strucu. neu device ?^dev, vord. addr); 


ndo do ioctl © 函数 用 于 进行 设备 特定 的 VO 控制 |。 


ndo set config O 函数 用 于 配置 拔 口 ， 也 可 用 于 改 杰 设备 的 IO 地 址 和 中 新 号 。 
ndo set mac address O 函数 用 于 设置 设备 的 MAC 地 址 。 
除了 netdev_ ops 以 外 ， 在 net_ device 中 还 存在 类 似 于 ethtool ops. header ops 这 样 的 操作 集 : 


CONS SErLUCE hho ops “ehooL Ope; 
const o strucr hedgder ops “header: Oper 


ethtool ops n KASHF T [RJethtool LAWN A-ha 493263906] Dy, ethtooltetk SIE I Rak ah ee P8 
REJJ, Bete ALinux 23 JT AA ee BA R p PET PRE BREA ZR ORIN. BANAK 


header ops 对 应 于 便 件 头 部 操作 ， 主 要 是 完成 创建 便 件 头 部 和 从 给 定 的 sk_ bu 他 分 析出 便 件 头 部 等 操 
(led 


(5) 辅助 成 员 


EReg ie long: trans Start 
unsigned. long last Xx; 


trans startid ax dg Je We BL AR AKA JST JH], last rX 记 孙 最 后 一 次 接收 到 数据 包 时 的 时 间 惟 ， 这 
两 个 时 间 惟 记录 的 都 是 jifies， 张 动 程 序 应 维护 这 两 个 成 员 。 


通 第 情况 下 ， 网 络 设备 驱动 以 中 断 方式 接收 数据 包 ， 而 poll controller €) 则 采用 纯 轮 询 方 式 ， 夯 外 一 
种 数据 接收 方式 是 NAPI (New API) ， 其 数据 接收 流程 为 "接收 中 断 来 临 一 关闭 接收 中 断 一 以 轮 询 方式 接 
收 所 有 数据 包 直 到 收 衬 一 开局 接收 中 断 一 接收 中 断 来 临 .……… 内 核 中 括 供 了 如 下 与 NAPI 相 天 的 API; 


Stace: TULIN word metre nap. add struct meu. dcevroe- “dev, 
Struct napi: SELUCE “Nap, 
Inu APpOll (Struct Topr S TUCE T. GINE), 
int weight); 

Stace: Inline Vou etC maps del[fstruct nap StEUODP- napy 


以 上 两 个 函数 分 别 用 于 初始 化 和 移 除 一 个 NAPI，netif napi add © 的 poll 参 数 是 NAPI 要 调度 执行 的 
FE W) RKI Z o 


Static nine Vod Mapi enables truct napi. Susucc m5 
Static thee VoL snap disable (Slruce napr Scrugu n). 


以 上 两 个 函数 分 别 用 于 使 能 和 花 止 NAPI 调 度 。 
Sa 


该 函数 用 于 检查 NAPI 是 否 可 以 调度 ， 而 napi schedule O PA ZH] T Va Rz sedg sc pim. Hm. 


Statro nline vod Tapi- schedule (sturuce Nap, Sto "nj; 


在 NAPI 处 理 完 成 的 时 候 应 该 调用 : 


人 


14.1.3. ved UJ] JI Be 


net device 结构 体 的 成 员 〈 属 性 和 net device ops 结 构 体 中 的 函数 指针 ) FMI 3A 2/] 1 Be EA, T 4. 
体 的 数值 秃 数 。 对 于 有 具体 的 设备 xxx， 工 程 师 应 访 编 写 相 应 的 说 备 驱 动 功能 层 的 图 数 ， 这 些 函 数 形 如 


xxx open () ~ xxx stop () ~ xxx tx (O 、XXX hard header (Ù) 、xxx get stats () 和 XXX tx timeout () 


^E 
wj o 


H F 94125 25036 BL EP] AC n] EAT SL AC, ERES Be s AY 3 — 1 3E SEA R ce PDT PR A, TE 
vo ix BUS EE ee BY Bs L2 Pe 26 ERM, AE n qe xxx interrupt O 和 xxx rx O KZG gj 
i EPRE ASEELLE, Je DU e se CS LIT ^E X CP RE S68 E JERSE SAR LE. 


14.2~14.8 节 将 对 上 述 函 数 进行 详细 分 析 并 给 出 参考 设计 模板 。 


对 于 特定 的 设备 ， 我 们 还 可 以 定义 相关 的 私有 数据 和 操作 ， 并 封装 为 一 个 私有 信息 结构 体 
xxx_private， 让 其 指针 赋值 给 net_device 的 私有 成 员 。 在 xxx_private 结 构 体 中 可 包含 设备 的 特殊 属性 和 操 
作 、 自 旋 锁 与 信号 量 、 定 时 器 以 及 统计 信息 等 ， 这 都 由 工程 师 自 定义 。 在 驱动 中 ， 要 用 到 私有 数据 的 时 
候 ， 则 使 用 在 netdeviceh 中 定义 的 接口 ， 


Setatic online vold.*8ueudeév Priv (CONSEC Struct met device “dev); 


Lt an EJ 2) drivers/net/ethernet/davicom/dm9000.cH'Jdm9000 probe (©) 函数 中 ， 使 用 
alloc etherdev (sizeof (struct board info) ) 分 配 网 络 设备 ，board info t~ T AAN cte IN A 
Ga, EHAE EK CR n] fe pe AA aa, WAN: 


static int 
om7000. Stare XIDLCtCSLrUuct sk butt “okD; SUDUDOL net device dev) 
{ 

unsigned long flags; 

board anro. Ct *db = nerdey privy (dev); 


14.2 ”网 络 设 备 驱 动 的 注册 与 注销 


网 络 设备 驱动 的 注册 与 注销 由 register netdev () 和 unregister netdev O 函数 完成 ， 这 两 个 函数 的 原型 
为 : 


inc regioter netdevistruct net devroe *dev); 
void unregister netdev(struct net device *dev); 


这 两 个 函数 都 接收 一 个 net_device 结 构 体 指针 为 参数 ， 可 见 net device 数 据 结构 在 网 络 设备 张 动 中 的 核 
心地 位 。 


net_device 的 生成 和 成 员 的 赋值 并 个 一 定 要 由 工程 师 杀 目 动 手 逐 个 完成 ， 可 以 利用 下 面 的 宏 帮 助 我 们 
JR B: 


#define alloc netdev(sizeof priv, name, setup) \ 
alloc metdev mogs(sizeoL priv, name, setup, Ly L) 
#define alloc etherdev(sizeof priv) alloc etherdev mq(sizeof priv, 1) 
#define alloc etherdev mq(sizeof priv, count) alloc etherdev mqs(sizeof priv, 
count; count) 


alloc netdev 以 及 alloc_etherdev 宏 引用 的 alloc_ netdev mqs €) 函数 的 原型 为 : 


SLIUCEL Det device *alloc necdey mgs(int S1ze0f priv, Const char ^name, 
void Se (SLEUCL net device =] 
unsigned int txqs, unsigned int rxqs); 


alloc netdev mqs O PAZ EJ — net. device AR, 26] C, P BOT XR P ZAE S87 
参数 为 设备 私有 成 员 的 大 小 ， 第 二 个 参数 为 设备 名 ， 第 三 个 参数 为 net_device 的 setup O MAE, oh 
四 、 五 个 参数 为 要 分 配 的 发 送 和 接收 子 队 列 的 数量 。setup O 函数 接收 的 参数 也 为 struct net. device 指 针 ， 
用 于 预 置 net _ device 成员 的 值 。 


free netdev () 完成 与 alloc enetdev () 和 alloc etherdev O 函数 相反 的 功能 ， 即 释放 net device 结 构 体 
HJ PRI ZA: 


vord Tree Me ee neu device *dev); 


net_device 结 构 体 的 分 配 和 网 络 设 备 驱 动 的 注册 和 需 在 网 络 设 备 驱 动 程序 初始 化 时 进行 ， 而 net_device 结 
构 体 的 释放 和 网 络 设备 驱动 的 注销 在 设备 或 驱动 修 移 除 的 时 低 执 行 ， 如 代码 清和 蛙 14.4 所 示 。 


代码 清 和 早 14.4 ”网 络 设备 驱动 程序 的 注册 和 注销 


LStdtic LNG xx PeG1 ster (void) 

Z1 

T ud 

4 /* iinet qdevice 结 构 体 并 对 其 成 员 赋 值 */ 
人 


6 if (xxx dev == NULL) 

7 /* Ainet devicekik */ 

8 

9 /* 注册 net device 结 构 体 */ 
10 if ((result = register netdev (xxx dev))) 
11 
12} 
13 
l4static void xxx unregister (void) 
14 
16 


17 /* 注销 Net device 结 构 体 */ 

18 unregister netdev(xxx dev); 
19 /* 释放 net device 结 构 体 */ 

20 free netdev (xxx dev); 

21} 


14.3. WIZ ee eH 
网 络 设 备 的 初始 化 主要 需要 完成 如 下 几 个 方面 的 工作 。 
进行 硬件 上 的 准备 工作 ， 检 查 网 络 设备 是 否 存在 ， 如 果 存在 ， 则 检测 设备 所 使 用 的 硬件 资源 。 
:进行 软件 接口 上 的 准备 工作 ， 分 配 net_device 结 构 体 并 对 其 数据 和 函数 指针 成 员 赋 值 。 


获得 设备 的 私有 信 有 指针 并 初始 化 各 成 员 的 什 。 如 末 私 有 信 且 中 包括 目 旋 锁 或 信号 量 等 并 及 或 同步 
届 制 ， 则 需 对 其 进行 初始 化 。 


对 net device 结 构 体 成 员 及 私有 数据 的 赋 信 都 可 能 需要 与 便 件 初始 化 工作 协同 进行 ， 即 便 件 检测 出 了 
相应 的 人 资源， 需要 根据 检 调 结 来 填充 net_ device 结 构 体 成 员 和 私有 效 据 。 


网 络 设备 驱动 的 初始 化 函数 合板 如 代码 清单 14.3 所 示 ， 有 其 体 的 设备 张 动 初始 化 函数 并 不 一 定 完 全 和 本 
模板 一 梓 ， 但 其 本 质 过 程 是 一 致 的 。 


代 但 清单 14.5 ”网络 设备 张 动 的 初始 化 函数 合板 


Ivoid xxx anit (Struct net device *dev) 


3 /* 设备 的 私有 信息 结构 体 */ 


SULUCE. XXXx Priv “Driv; 





S 
6 /* 检查 设备 是 否 存在 和 设备 所 使 用 的 硬件 资源 */ 
7 xxx hw init(); 

8 

9  /* 初始 化 以 太 网 设备 的 公用 成 员 */ 
se 


12  /* 设置 设备 的 成 员 函 数 指针 */ 

ee = &XxXx netdev ops; 
14 ndèv=retit tool Ops — &XXX ethtool ops; 
LS. deve^watchdog timeo = pimeour; 





17 /* 取得 私有 信息 ， 并 初始 化 它 */ 
ee 
19 ... /* 初始 化 设备 私有 数据 区 */ 





上 述 代码 第 7 行 的 xxx_hw_init《〈) 函数 完成 的 与 便 件 相关 的 初始 化 操作 如 下 。 


- 探 铀 xxx 网 络 设 备 是 合 存 和 在。 探测 的 方法 闫 似 于 数学 上 的 “ 反 证 法 ”， 即 对 假说 存在 设备 XXX， 访 问 翅 
设备 ， 如 来 设备 的 表现 与 预期 一 怪 ， 束 确定 设备 存在 ; 否则， 假设 错误 ， 设 备 xxx 不 存在 。 


探测 设备 的 有 具体 便 件 配置 。 一 些 设备 驱动 编 与 得 非 间 通用 ， 对 于 同类 的 设备 使 用 统一 的 驱动 ， 我 们 
南 要 在 初始 化 时 探 负 设 备 的 具体 型 亏 。 太 外， 即便 是 同一 设备 ， 在 使 件 上 的 配置 也 可 能 不 一 样 ， 我 们 也 可 
以 探测 设备 所 使 用 的 使 件 资源 。 


:申请 设备 所 需要 的 硬件 资源 ， 如 用 request region O 函数 进行 /O 病 口 的 申请 等 ， 但 是 这 个 过 程 可 以 


放 在 设备 的 打开 函数 xxx open ©) 中 完成 。 


14.4 网 络 设备 的 打开 与 释放 
网 络 设备 的 打开 函数 需要 完成 如 下 工作 。 
使 能 设备 使 用 的 人 硬件 资源 ， 申 请 IO 区 域 、 中 断 和 DMA 通 道 等 。 
调用 Linux 内 核 提 供 的 netif start queue O 函数 ， 激 活 设备 发 送 队 列 。 
网 络 设 备 的 关闭 函数 需要 完成 如 下 工作 。 
-调用 Linux 内 核 提 供 的 netif stop queue O 函数 ， 停 止 设备 传输 包 。 
:释放 设备 所 使 用 的 IO 区 域 、 中 断 和 DMA 资 源 。 
Linux 内 核 提 供 的 netif start queue () 和 netif stop queue O 两 个 函数 的 原型 为 : 


VOLO me Li start Queue (Struce net device. "dev)s 
Void neir stop queue (Struct het device. *dev); 


根据 以 上 分 析 ， 可 得 出 如 代码 清单 14.6 所 示 的 网 络 设备 打开 和 释放 函数 的 模板 。 
代 人 担 清单 14.6 ”网 络 设备 打开 和 释放 函数 模板 


Lotario Intl Xxx ODOenisLrucc net device ^*dev) 
Z1 
3 /* 申请 端口 、IRQ 等 ， 类 似 于 foPps->open */ 
net = Tequest. Lro deva Lidy xx IDLEPrupt, U .dev-sname,. dev); 


4 
ares 
6 TeL Start queue(dev); 
| 
8 
9 
lÜSLatrio ANU Xxx release (struce net device "dev) 


12 /* ROMO. TROY, RwUFfops->close */ 
l3 irese arq(deyv-oirg, dev); 


15 netif stop queue (dev); /* can't transmit any more */ 


14.5 AU AXE UE 


从 14.1 节 网 络 设备 驱动 程序 的 结构 分 析 可 知 ，Linux 网 络 子 系统 在 发 送 数据 包 时 ， 会 调用 驱动 程序 提 
供 的 hard_start_transmit《〈) PAG RAAH T sae RIK. TE VC ISRO i, OC RT ET m 
ABC] HA UAR EB xxx tx O 函数 。 


PA) 4e vc hr BN FE MB EL ACIS T] UE AU P o 


1) 网 络 设 备 驱动 程序 从 上 层 协 议 传递 过 来 的 sk_buff 参 数 获得 数据 包 的 有 效 数据 和 长 度 ， 将 有 效 数据 
放 入 临时 绥 冲 区 。 


2) 对 于 以 太 网 ， 如 末 有 效 数 据 的 长 度 小 于 以 太 网 冲突 检测 所 要 求 数据 帆 的 最 小 长 度 ETH_ZLEN， 则 
给 临时 绥 神 区 的 末尾 项 宛 0。 


3) 设置 价 件 的 寄存 如 ， 驱 使 网 络 设备 进行 数据 友 太 操作 。 
完成 以 上 3 个 步 又 的 网 络 设 备 驱 动 程序 的 数据 包 友 壕 函 数 柑 板 如 代 公 消 和 持 14.7 所 示 。 
代 担 清单 14.7 ”网 络 设备 张 动 程序 的 数据 包 及 大 函数 模板 


Lint xxx C> (oruot Sk burt *SkED, Seruct. net device “dev) 
24 
3 int len; 
4 char *data, shortpkt[ETH ZLEN]; 
5 if (xxx send available(...)) ( /* 发 送 队 列 未 满 ， 可 以 发 送 */ 
o /* 获得 有 效 数 据 指针 和 长 度 */ 
7 data = skb->data; 
8 len = skb->len; 
9 if (len < ETH ZLEN) { 
10 /* 如 果 帧 长 小 于 以 太 网 帧 最 小 长 度 ， 补 0 */ 


11 memset (shortpkt, 0, ETH ZLEN); 

TZ memcpy (shortpkt, skb->data, skb->len); 
13 len = ETH ZLEN; 

14 data = shortpkt; 

15 } 

16 

17 dev->trans start = jiffies; /* 记录 发 送 时 间 戳 */ 
de 

19 if (avail) (/* 设置 硬件 寄存 器 ， 让 硬件 把 数据 包 发 送出 去 */ 
20 Xxx hw tx(data, len, dev); 

21 ] else { 

o netif stop queue (dev); 

Zo ee 

24 } 

Zo] 


这 里 特别 要 强调 第 22 行 对 netif stop queue ©) WHH, SRN 198 2X EA] E ft Je. DS] IE AS Be RE 5 B 
EE POR ae LAY, Bus] Hes ZH 1E. E ES ARSE Fa] Dd 28 te UC PRAG E. LATI AO AY a BL 
发 送 完成 后 ， 在 以 TX 结 束 的 中 断 处 理 中 ， 应 该 调用 netif wake queue () 唤醒 被 阻塞 的 上 层 ， 以 启动 它 继 

续 同 网 络 设 备 驱 动 传送 数据 包 


当 数 据 传输 超时 时 ， 半 味 看 当前 的 肥 过 操作 失败 或 便 件 已 陷入 未 知 状态 ， 此 时 ， 数 据 包 友 过 超时 处 理 


图 数 xxx tx timeout ©) 将 被 调用 。 这 个 函数 也 需要 调用 由 Linux 内 核 所 供 的 netif wake queue〈) 函数 以 重 
新 局 动 设备 发 达 队 列 ， 如 代 但 清单 14.8 所 示 。 


代 公 清早 14.8 ”网络 设备 驱动 程序 的 数据 包 有 到达 超 时 国 数 模板 


lvoid xxx tx timeout (struct net device *dev) 

Z1 

TOO REF 

4 netif wake queue (dev); /* 重新 启动 设备 发 送 队列 */ 


从 前 文 可 知 ，netif wake queue () 和 netif stop queue O 是 数据 发 这 流程 中 要 调用 的 两 个 非常 重要 的 
函数 ， 分 别 用 于 唤醒 和 阻止 上 层 向 下 传送 数据 包 ， 它 们 的 原型 定义 于 include/linux/netdevice.h 中 ， 如 下 : 


Static online void net wake queue(struct net device dev); 
Scari anbine void netir Stop gueue(tstruct net device "devis 


14.6 ”数据 接收 流程 


网 络 设备 接收 数据 的 主要 方法 是 由 中 断 引 上 友 设 备 的 中 断 处 理 函 数 ， 中 断 处 理 函 数 判断 中 断 闫 开 ， 如 末 
为 接收 中 断 ， 则 谈 取 接收 到 的 数据 ， 分 配 sk_buffer 数 据 结构 和 数据 缓冲 区 ， 将 接收 到 的 数据 复制 到 数据 绥 
冲 区 ， 并 调用 netif rx O 函数 将 sk_ buffer 传 递 给 上 层 协 议 。 代 码 清 单 14.9 所 示 为 完成 这 个 过 程 的 国 数 模 
板 。 


代 担 清单 14.9 ”网 络 设备 张 动 的 中 断 处 理 函 数 模板 


LStdtic VOLO Xxx G3DtersuptoLmNE rdg, vod: se = 1d) 


2 { 

o yas 

4 switch (status &ISQ EVENT MASK) { 
5 case ISQ RECEIVER EVENT: 

6 /* 获取 数据 包 */ 

| Xxx rx(dev}); 

8 break; 

9 /* 其 他 类 型 的 中 断 */ 
10 } 
11} 
l2static void xxx rx(struct xxx device *dev) 
1:33 
14 


lo Longi = get rev LeN (446); 
lo /* 分 配 新 的 套 接 字 缓冲 区 */ 
17 skb = dev alloc. skb(lengum + 2); 


19 skb reserve(skb, 2); /* 对 齐 */ 
20 skb->dev = dev; 


22  /* 读 取 硬件 上 接收 到 的 数据 */ 

29  Qnewiloaddr a RX FRAME. PORT, kb put(skb; length), Length >> 1); 
24 if (length &1) 

25 skb->data[length = 1] = inw(ioaddr + RX FRAME PORT); 


27 /* 获取 上 层 协 议 类 型 */ 
20  SkD-^protoocol = eil type trans(skb, dev); 


+ 


30  /* 把 数据 包 交 给 上 层 */ 


SL MEE rx (skh); 


33  /* 记录 接收 时 间 惟 * / 
人 


从 上 述 代码 的 第 4~7 行 可 以 看 出 ， 当 设备 的 中 断 处 理 程序 判断 中 断 类 型 为 数据 包 接收 中 断 时 ， 它 调用 
第 12~36 行 定义 的 xxx_ rx. O 图 数 完成 更 深入 的 数据 包 搂 收工 作 。xxx rx O 图 数 代 但 中 的 第 15 行 从 使 件 
读 取 到 接收 数据 包 有 效 数 据 的 长 度 ， 第 16~19 行 分 配 sk_buff 和 数据 缓冲 区 ， 第 22~25 行 谈 取 便 件 上 接收 到 
的 数据 并 放 入 数据 缓冲 区 ， 第 27~28 行 解析 接收 数据 包 上 层 协 议 的 类 型 ， 最 后 ， 第 30~31 行 代 公 将 数据 包 
EXE EHX. 


MRENAPIRR KEK, WA) NR poll A ARAA E. FERAL M. RIT AA mU 
动 提 供 作 为 netif napi add O 参数 的 xxx poll O 函数 ， 如 代码 清早 14.10 所 示 。 


代码 清单 14.10 ”网 络 设备 驱动 的 xxx poll ©) PR AREAL 


ee 


2 
3 int npackets = 0; 

4 SEcCuCe Sk DUIE *skb; 

9 SUruce Xxx priv “priv = Container. Ol (napi; SCIUCL XXX Priv; Hap); 
© SUPuct Axx packet DEL; 

7 

8 


while (npackets < budget && priv->rx queue) { 
9 /* 从 队列 中 取出 数据 包 / 


10 Pkt = xxx dequeue buf (dev); 

I1 

12 /* 接 下 来 的 处 理 和 中 断 触 发 的 数据 包 接收 一 致 / 

13 Sko = dev allog SkD (Okt >dacalen 3 2); 

14 E 

do) skb reserve(skb. 2)7 

16 memcpy(skb put(skb, pkt->datalen), pkt->data, pkt->datalen); 
17 skb->dev = dev; 

18 9KD=>ProOCOCOL = gth type trans (Sko; dev)y 

19 /* 调用 netif receive_skb, 而 不 是 net rx， 将 数据 包 交 给 上 层 协议 */ 
20 Mmetit receive SO 

21 

22 /* 更 改 统计 数据 */ 

23 四 

24 perve stats.rx bytes, T= pkEt-^Oatalens 

2. xxx release DUILeripkt); 

26 npacketstr; 

2] } 

28 if (npackets < budget) { 

29 napi complete (napi); 

30 xxx enable rx int (.); /* 再 次 启动 网 络 设备 的 接收 中 断 */ 
3l } 

32 return npackets; 

33] 


述 代 但 中 的 pudget 息 在 初始 化 阶段 分 配给 接口 的 weight 信 ，xxx poll O 函数 每 次 只 能 接收 最 多 
budget 个 数据 包 。 第 8 行 的 while《) 循环 读 取 设备 的 接收 绥 冲 区 ， 同 时 读 取 数据 包 并 提交 给 上 层 。 这 个 六 
程 和 和 中断 触 友 的 数据 包 接 收 过 程 一 八 ， 但 是 最 后 使 用 的 是 netif receive skb O 图 效 而 个 古 netif rx O K 
数 将 数据 包 所 区 给 上 层 。 这 里 体现 出 了 中 断 处 理 机 制 和 轮 启 机 制 之 同 的 在 列 。 


当 一 个 轮 询 过 程 结束 时 ， 第 29 行 代码 调用 napi complete O 宣布 这 一 消息 ， 而 第 30 行 代码 则 再 次 局 动 
网 络 设备 的 接收 中 肠 。 


里 然 NAPI 菩 容 的 设备 驱动 以 xxx_poll() 方式 接收 数据 包 ， 但 是 仍然 需要 首 钦 数据 包 接收 中 断 来 触及 
过 程 。 与 数据 包 的 中 断 接收 方式 不 同 的 十， 以 轮 询 方式 接收 数据 包 时 ， 当 第 一 次 中 断 妥 生 后 ， 中 有 断 处 
理 程序 要 花 止 设备 的 数据 包 接 收 中 断 并 调度 NAPI， 如 代码 清单 14.11 所 示 。 


代码 清单 14.11 网 络 设备 驱 动 的 poll 中 晰 处 理 


| 人 EEC vord XXX Interruüp (Int irg; VOId “dev ad) 
| 
3 switch (status &ISQ EVENT MASK) | 


4 case ISQ RECEIVER EVENT: 

D . /* 获取 数据 包 */ 

6 xxx disable rx int(...);  /* 禁止 接收 中 断 */ 
J Hapi soheduleisprliv-^napi); 

8 break; 

9 . /* 其 他 类 型 的 中 断 */ 
LU 
11} 


上 上述 代码 第 7 行 的 napi_ schedule O PR ZU FE Va 77 SEIS] Ee al A, KR VES A poll IRS $0 I 
2& EI Ipoll AE EMAR, SEBAJE A MER Bea BL. GZS AA — NET RX SOFTIRQ#K Flt, Mimi Xt 
网 络 层 接收 数据 包 。 图 14.3 所 示 为 NAPI 张 动 程序 各 部 分 的 调用 关系 。 


softnet_ data 






设备 硬件 中 断 "— 


netif rx action() 





把 设备 挂 接 上 poll list 
关闭 中 断 


napi_schedule() 


返回 中 断 







调用 设备 
的 poll 方法 
读 取 数 据 包 










数据 包 读 取 完 毕 
司 动 中 断 
把 设备 从 poll list 清除 


图 14.3 NAPI 驱 动 程 序 各 部 分 的 调用 关系 
在 支持 NAPI 的 网 络 设 备 驱 动 中 ， 通 常 还 会 进行 如 下 与 NAPI 相 关 的 工作 。 


1 ) 在 私有 数据 结构 体 〈 如 xxx priv) 中 增加 一 个 成 员 : 


TO 


在 代码 中 束 可 以 方便 地 使 用 container of O 通过 NAPI 成 员 反 同 煞 得 对 应 的 xxx_ priv 指 针 。 
2) 通 第 会 在 设备 驱动 急 始 化 时 调用 : 
netif napi add(dev, napi, xxx poll, XXX NET NAPI WEIGHT); 


3) Hs fEnet device 结 构 体 的 open ©) 和 stop ©) ARAZ PH napi enable O) 和 


napi disable () 。 


14.7 


网 络 适 配 


可 以 退 


生变 化 ， 也 应 该 以 netif carrier on () 和 netif carrier off © 


除了 netif carrier on () 和 netif carrier off © KAk, F 


网 络 连接 状态 


船 使 件 电路 可 以 检测 出 链 路 上 和 十 侣 有 载 疲 ， 和 载波 反映 了 网 络 的 连接 是 合 正常 。 网 络 设 备 驱动 


过 netif carrier on () 和 netif carrier o 储 ()〉 疯 数 改变 设备 的 连接 状态 ， 如 果 驱 动 检测 到 连接 状态 发 


者 返回 链 路 上 的 载波 信号 赴任 存在 。 


以 设 症 一 个 定时 融 来 对 链 路 状态 进 
ir HS AK Be FF A 


4 


Th s Ri, F 


A, 


这 几 个 函数 都 接收 一 个 net_ device 设 备 结构 体 指针 作为 参数 ， 


VOLO DELLI carrier on(struct net device *dev)7 
void metiri Carrier Ofr(Sstruce net device *dev); 
nnt DOetrt Carrier OR(SUDUCt net - device. *dev)s 


PK ŽUTE SHEA 


一 个 图 数 netif carrier ok O 可 用 于 问 调 用 


TE P9 £8 8 SE RA EMP BOR AR E EARS BLA Ae RA, Fy 


代码 清单 14.12 ZR t 6 36] FI XE FS] 50 AE A BERTAS 


lSbEdEIOC void Xxx Timer(unsagned long data) 


Z1 


上 述 代码 第 10 行 调用 xxx chk link () 函数 来 读 取 网 络 适 配 
具体 实现 由 人 硬件 决定 。 当 链 路 连接 上 时 ， 
第 18 行 的 netif carrier off ©) 同样 显 了 式 地 通知 内 核 链 路 失去 连接 。 


SELUCE net device “dev e (struct het ee 
ulglink:? 


Lt (I(089V- rlags LE UPJ} 
goto set timer; 


/* 获得 物理 上 的 连接 状态 */ 
下 ev 
if (! (dev->flags &IFF RUNNING) ) { 
Detur Carrier on (dey); 
dev->flags |= IFF RUNNING; 
printk(KERN DEBUG "$s: link upin"; dev-»name); 
) 
} else { 
if (dev->flags &IFF RUNNING) { 
站 tlt Carrier ofr (dev)? 
dev->flags &- SLEE RUNNING; 
printk(KERN DEBUG "$s: link down\n", dev->name) ; 
) 
) 


Set timer: 

priv->timer.expires = jiffies + 1* Hz; 
priv->timer.data = (unsigned long) dev; 
priv->timer.function = &xxx timer; /* timer handler */ 
add timer(sprerv--taimet); 


‘TA SAVER. SKEW as BUSH Za, TEXEDN S 
ASR Ft OBO» Mun SET AC ea ERAS, WISH 14. 12 ATA o 


di TBE AP AES At FF Ar 


第 12 行 的 netif carrier on ©) 图 数 显 式 地 通知 内 核 链 路 正 


处理 疯 数 中 读 取 物理 设 


， 以 获得 链 路 连接 状 


此 外 ， 从 上 述 源 代码 还 可 以 看 出 ， 定 时 喜 处 理 图 数 会 不 侣 地 利用 第 24~28 行 代码 局 动 新 的 定时 器 以 实 
现 周 期 性 检测 的 目的 。 那 么 最 官 局 动 定 时 峰 的 地 方 在 哪里 呢 ? 很 显然 ， 它 最 适合 在 设备 的 打开 函数 中 完 
成 ， 如 代码 清单 14.13 上 所 示 。 


AVI3TRTE14.13.— KE PIRE 28 UIT] A ER 2C] A E IST A 


Lotario Anc Xxx OpenmisLtruct net device dev) 


Z1 
2 Struct XXX Priv “privy = netoev privi(dev); 
D sos 
6 priv->timer.expires = jiffies + 3* Hz; 
7 priv->timer.data = (unsigned long) dev; 
8 priv->timer.function = &xxx timer; /* 定时 器 处 理 函 数 */ 
o edd timer(spriv—--tuimeér); 
LO 


14.8 ”参数 议 置 和 统计 数据 
网 络 设备 的 驱动 程序 还 提供 一 些 供 系统 对 设备 的 参数 进 


当 用 户 调 用 ioctl ©) 


设置 网 络 设备 的 MAC 地 址 可 用 如 代码 清单 14.14 所 示 的 模板 。 
代码 清单 14.14 ”设置 网 络 设备 的 MAC 地 址 


lotari Ant set Mac a0dress (seruck net device "dev, word *addr) 
Z1 


3 if (netif running (dev)) 

4 return -EBUSY;  /* 设备 忙 */ 
5 

6 /* 设置 以 太 网 的 MAC 地 址 */ 

7 Xxx set mac(dev, addr); 

8 

9 return Uś 
10} 


上 述 程序 首先 用 netif running O 宏 判断 设备 是 
设置 MAC 地 址 ; 函数 在 网 络 适 
便 件 上 支持 MAC 地 址 的 修改 ， 而 实际 上 ， 


含 则 ， 调 用 xxx set mac () 


安 的 定义 为 : 


netif running () 


statio inline Daol netir sunmningiconst struct net device *dew) 


{ 


return test bit( LINK STATE START, &dev-»state); 


} 


SHP val dioctl ©) 函数 时 ， 厂 命令 
友 这 一 调用 ) ， 系 统 会 调用 驱动 程序 的 set_config() 函数 。 


üt set config () 
地 址 、 中 断 等 
并 不 适合 包含 set config ©) 


=F o 


ERAN. set config © 


代码 清单 14.1$ 网络 设 备 张 动 的 Set config rA Z5 P 


IStatic Ant Xxx Co net device "dev; 


3 if (netif running (dev)) /* 不 能 设置 一 个 正在 运行 状态 的 设备 */ 


return 一 EBUSY; 


5 
6 /* 假设 不 允许 改变 I/O 地 址 */ 
7 
8 


LE (map=> base addr t= Co >bDase addr) { 
printk (KERN | WARNING "xxx: Can't change I/O address\n"); 
9 return - HOPNOTSUPP; 
LO: +} 
11 


12  /* Ekai IRQ */ 
13 af (map->irq != dev->irq) 


行 设 普 或 读 取 设备 相关 信 . 


国 数 ， 并 指定 SIOCSIFHWADDR 命 令 时 ， 意 味 着 要 设置 这 


正在 运行 ， 如 果 是 ， 则 意 


为 SIOCSIFMAP (如 在 控制 台中 运 


浮 数 传递 一 个 ifmap 结 构 体 ， 该 结构 体 主要 
`， 并 不 是 ifmap 结 构 体 中 给 出 的 所 有 修改 都 是 可 以 接受 的 。 实 际 上 ， 大 多 数 设 备 
函数 的 例子 如 代码 清单 14.15 所 示 。 


struct ifmap *map) 


JT E. 


这 个 设备 的 MAC 地 址 。 


味 独 设备 忙 ， 此 时 不 允许 


器 硬件 内 写 入 新 的 MAC 地 址 。 这 要 求 设 备 在 


许多 设备 并 不 提供 修改 MAC 地 址 的 接口 。 


行 网 络 配置 命令 ifonfig 了 驶 会 引 


包 人 用户 欲 设置 的 设备 要 使 用 的 IO 


14 dev->irg = map->1irqd; 


16 return 0; 


上 上 述 代 但 中 的 set config ©) PRZIHBESZIRQRUME UR, iAH. HARUM EI PIX 
些 信 息 的 修改 ， 要 视 人 硬件 的 设计 而 定 。 


如 果 用 户 调 用 ioctl () 时 ， 命 令 类 型 在 SIOCDEVPRIVATE 和 SIOCDEVPRIVATE+1S 之 间 ， 系 统 会 调用 
驱动 程序 的 do ioctl ©) 图 数 ， 以 进行 说 备 专 用 数据 的 设置 。 这 个 设置 在 大 多 数 情况 下 也 并 不 需要 。 


驱动 程序 还 应 提供 get stats CO 函数 以 同 用 户 反 馈 设 备 状 态 和 统计 信息 ， 访 图 数 返 回 的 是 一 个 
net device stats 结构 体 ， 如 代码 清单 14.16 所 示 。 


代码 清单 14.16 ”网络 设备 张 动 的 get stats CO 图 数 模 板 


ea neu device Slats “xxx Stats (Struct net device dev) 
| 

4 return  &dev-»stats; 

2j 


有 有 的 网 卡 便 件 比较 强大 ， 可 以 从 便 件 的 寄存 右 中 读 出 一 些 统计 信息 ， 如 rx_missed_errors、 
tx aborted errors. rx dropped. rx length errors 和 等。 这 个 时 候 ， 我 们 应 该 从 便 件 寄存 器 读 取 统计 信息 ， 填 
f&S$net device 的 stats 字 段 中 ， 并 返回 。 有 具体 例子 可 见 drivers/netethernetadaptec/starfire.c 中 的 get stats () 
pK] ZA. 


net device gstats 结 构 体 定义 在 内 核 的 pclude/linuxnetdevice.h 文 件 中 ， 它 包含 了 比较 完整 的 统计 信息 ， 
如 代码 清单 14.17 所 示 。 


代码 清单 14.17 net device stats 结构 体 


Struct. Nee device Stats 
2 1 


3 unsigned long rx packets; /* 收 到 的 数据 包 数 */ 
unsigned long tx packets; /* 发 送 的 数据 包 数 * / 

5 unsigned long rx bytes; /* 收 到 的 字 节 数 */ 

6 unsigned long tx bytes; /* 发 送 的 字 节 数 */ 

7 unsigned long rx errors; /* 收 到 的 错误 数据 包 数 */ 

8 unsigned long tx errors; /* 发 生发 送 错误 的 数据 包 数 */ 
D pus 
10}; 


述 代码 清单 只 是 列 出 了 net device stats 包 含 的 主 项 目 统计 信息 ， 实 际 上 ， 这 些 项 目 还 可 以 进一步 细 
分 ，net device stats 中 的 其 他 信息 给 出 了 更 详细 的 子 项 目 统计 ， 评 见 Linux 源 代 代 。 


net device stats 结构 体 已 经 内 租 在 与 网 络 设备 对 应 的 — 构 体 中 ， 而 其 中 统计 信息 的 修改 则 应 
VATE CJ] EIS] AC TK A CA DET HS ABS BR CH SE, CHEE PR LG AT REA LAIKA PRB. AX 
Ja EX ACI EE IN PR AT BH FRECHE OS PR BSG FRAT IA EK ES PRU HP S ES, US 5214.18 


HIZK o 


代码 清单 14.18 net device stats 结 构 体 中 统计 信息 的 维护 


1/* 发 送 超时 函数 */ 

vold Xxx tx timeout(struct net device *dev) 

34 

d gai 

5 dev->stats.tx errorstt+; /* 发 送 错 误 包 数 加 1 */ 
6 

1] 

8 

O/* 中 断 处 理 函 数 */ 
IUSEALLC. VOLO XXX IDLSPrupt0rpct irg; void *dev X0) 





13.1 

12 SUiuce Het device “dey = dev id; 

13 switch (status &ISO EVENT MASK) { 

l4 ssa 

15 case ISQ TRANSMITTER EVENT: / 

16 dev->stats.tx packetst+; /* 数据 包 发 送 成 功 ,， tx packets amli */ 
17 netif wake queue (dev); /* 通知 上 层 协 议 */ 

18 if ((status &(TX OK | TX LOST CRS | TX SQE ERROR | 
19 TX LATE COL | TX 16 COL)) !- TX OK) ( /* 读 取 硬 件 上 的 出 错 标志 */ 
20 /* 根据 错误 的 不 同情 况 ， 对 net_qdevice stats 的 不 同 成 员 加 1 */ 

21 if ((status. &TX OR) == 0) 

o deve slats. ls Crrors ty 

INS lf (status &TX LOST CRS) 

24 deveostadts.tx carrier errorsTt; 

25 if (status &TX SQE ERROR) 

Zo deye-e sStatso.tx DesrtDegc errors 

27 if (status &TX LATE COL) 

28 dev->stats.tx window errorstt; 

29 LE (Stacus &ECX 16 COL) 

30 devo Calos Cx aborted GILSOPOTT, 

21 ) 

32 break; 

329 ‘Case [50 PX MISS EVENT: 

34 Qeve csDats.rx missed errors T= (Status. >~ 97 

305 break; 

36 Case IDO TX COL EVENT: 

Su dev->stats.collisions += (status >> 6); 

30 break; 

33 3 

40} 


EX AAS G5 61 RE CE ACIS BT CLERC AE AIK 


音 误 的 数据 包 效 加 1。 


而 第 13~38 行 则 意味 


看 当 网 络 设备 中 断 产 生 时 ， 中 上 断 处 理 程 序 读 取 使 件 的 相关 信息 以 雇 定 修改 net device stats 统 计 信息 中 的 哪 


些 项 目 和 子 项 目 ， 并 将 相应 的 项 目 加 1。 


14.9 DM9000 网 卡 设备 驱动 实例 
14.9.1 DM9000 网 卡 硬件 描述 


DM9000 是 开发 板 采用 的 网 络 避 片 ， 是 一 个 高 度 集成 用 功 耗 很 低 的 高 速 网 络 控制 右 ， 可 以 和 CPU 下 
连 ， 支 持 10/100MB 以 太 网 连接 ， 芯 片 内 部 自 带 4KB 双 字 节 的 SRAM (3KB 用 来 发 送 ，13KB 用 来 接收 ) 。 
针对 不 同 的 处 理 器 ， 接 口 文 持 8 位 、16 位 和 32 位 。DM9000 一 般 直 接 挂 在 外 面 的 内 存 总 线 上 。 


14.9.2 DM9000 网 卡 驱动 设计 分 析 


DM9000 网 卡 驱动 位 于 内 核 源 代码 的 driversmnetdm9000.c 中 ， 它 基于 平台 驱动 架构 ， 代 码 清单 14.19 抽 
取 了 它 的 主干 。 其 核心 工作 是 实现 了 前 文 所 述 net_device 结 构 体 中 的 hard start xmit © ~ open () 、 
stop ©) ~ set multicast list © ~ do ioctl () ~ tx timeout © 等 成 员 函 数 ， 并 借助 中 断 辅 助 进行 网 络 数 
据 包 的 收发 ， 为 外 它 也 实现 了 ethtool_ops 中 的 成 员 函 数 。 特 别 注意 代码 中 的 黑体 部 分 ， 它 标明 了 天 键 的 数 
据 收 肥 流程 。 


代码 清单 14.19 ”DM9000 网 卡 驱 动 


static Const Strucb etatool ops dm2000 etntool ops = 1 


2 SQet Crvinio = dm9000 gec dArvinio; 
3 Uer Setutrngs = du9oUDO get SetLrngs, 
4 «SEL. SOLtIngs = du9UDUO. Set Sereings, 
5 get msg level = dum9pOO get Nsolevel; 
6 Set meglevel = dm9000 Set msglevel; 
7 

9]; 

9 


10/* Our watchdog timed out. Called by the networking layer */ 
Llstatic void dm2000 ctsmeout(strcuct net device *dev) 


12 { 

13 ues 

14 netif stop queue (dev); 

Lo dm9000 init dm9000 (dev); 

16 dm9000 unmask interrupts (db); 

17 /* We can accept TX packets again */ 
18 dev->trans start = jiffies; /* prevent tx timeout */ 
L9 netif wake queue (dev); 

20 

21 

22} 

23 


24 static int 
29 Omg000. Start. SM C(Seruce SE burr *skb; Struck net device ^dev) 


26 1 

2 TE 

28 /* TX control: First packet immediately send, second packet queue */ 
29 Jur (de > Tx IE Gn == L) 4 

30 amgU00 send packer (dev, skb=21p summed, skb->len) 7 
od } else { 

32 /* Second packet */ 

33 db=>queue: -pkr len —.Skb--len; 

34 db->queue ip summed = skb->ip summed; 

35 netif stop queue (dev); 

36 } 

Du 

26 spin unlock 19rqrestore (cdb=- lock, flags); 

39 

40 /* free this SKB */ 

41 dev consume skb any (skb); 

42 

43 return NETDEV TX OK; 

44 } 

45 

46 Static void dmdn9000 tx done(struct net device “dev; board info t *db) 
47 ( 

48 int tx status = ior(db, DM9000 NSR); /* Got TX status. */ 
49 

50 if (tx status & (NSR TX2END | NSR TXIEND)) { 

51 /* One packet sent complete */ 

52 d= TX Phi Onl ==; 

DES deve sta ge tx packets, 

54 

cts if (netif msg tx done (db)) 

56 dev dbg(db-»dev, "tx done, NSR $02x Xn", tx status); 
Du 

58 /* Queue packet check & send */ 

59 ll (dot DEL ONE 2 4) 

60 dm9000 send packet(dev, db-»queue ip summed, 
61 db=>queue. plc len); 


62 netif wake queue (dev); 


6 3 } 

64 } 

65 

06 Slat Le Void 

o .7-dm9000. EXCSLPUCL uet devroe *dev) 

68 { 

69 

70 

Jd i. * Check packet ready OF not */ 

o do { 

159 

74 

J75 /* Move data from DM9000*/ 

76 if (GoodPacket && 

T3 ((Skb = netdev alloc skb(idev, Ruben: cw) Te NULL d 
78 SKO 2eserve (skh, -2)7 

79 rapbr = (us). Ske put(tskb, RXhen = 4)7 
80 

81 /* Read received packet from RX SRAM */ 
82 

83 (OD= >and ky) (dD >10 -datar JOD; Rxlen); 
84 dev-^staLs;rx bytes: 1= Rx len; 

85 

86 /* Pass to upper layer */ 

9-7 Skb= -Protocol = Sth ype: Crane (okD dey); 
88 Lt (dev-»reatures & NETIF Ek RXCSUM) 4 
89 if ((((rxbyte & Oxlc) << 3) & rxbyte) == 0) 
2U skb--^ip summed = CHECKSUM UNNECESSARY; 
91 else 

92 SKD-cheoksum nope assert (Skb) 7 
93 } 

94 Detir ASKO); 

23 dev= Stats. 0x, paockeceT 

96 

97 Pous 

98 } while (rxbyte & DM9000 PKT RDY); 

99 } 
TOO 
WOL Static weorecuirn c das9UU 2nterrupe (int. To Ol “oes. d) 
102: 4 
14953 t 
104 /* Received the coming packet */ 
LOS Lr (unt status & ISR PRO) 
106 dm9000 rx(dev); 
107 
108 p Trnaomrit Interrupb check 7y 
109 Lr quntostatus © -Loki EDS) 
LEC dmo0 0:0. Ex done ctdev;: eb 
d CU 
L gh 
Elta return IRQ HANDLED; 
114 } 
14. 5 
LIO Static nt 
LL? um9000 open[fstruct net device *dgdev) 
1159-8 
119 
120 
121 /* Initialize DM9000board */ 
122 moO 000. cmt dupgoO0qOey) s 
1:2. 
124 BI qrequesc rg (deve 17g; -um2000 Interrupt; X£grlags.sdeve name. xev) 
L25 return -EAGAIN; 
126 
127 
128 Mid Check medratcedbeonman.dmeulcr meg LEEG 3 

129 netrir. start queue (dev); 

1.30 

Oral EC 35 

132 3 

13:9 

194-919 tco cmt 

1595 AMINU SLODISUIUCL met. devices “ndey,) 

1206 4 

134 

138 

139 eert. Stop Gucuie (NOS 

140 Detrp Cariwer OLE (noe) ; 

LAL 

142 re Eres Tmnbetecdpt € 

143 Lree Iro(tdev= rg, ndev) ; 

144 

145 dm9000 shutdown (ndev) ; 

146 

14y return -03 

148 } 

149 

l00 Statio Consl Struct net device. ‘Ops: Dee Ops = "| 


jd ndo. open —odm9000 open, 


LZ «nde. Stop = Omo000: Slop; 

159 do -Start Xmt = Cm OOO! JSt. agp. mL 
154 .ndo tx timeout = dm9 000 timeout, 

LII ndo set Tx mode = dm9000. lash. Cable; 
156 dodo aod = dm9000 TOCUL; 

1:977 ndo ‘Change meu = eth change: mtu, 

LSG ve = Cm7 000) See Pealures, 
159 oor validate addr = 6th, validate: addr, 
160 sndo seb mac address = Lh mac addr, 

161 #ifdef CONFIG NET POLL CONTROLLER 

LOZ dO. POL Control ber = Emg00 BolLl Control ber, 
163. Fendt 

164 }; 

165 

166 

Bo a4 

168 * Search DM9000board, allocate space and register it 
169 cy 


FIO ie Ec. aL 

lJl-dm9000 probe (struce plarrorm device *pdey) 

LU X 

1-13 

174 

I LE mir Network device s*y 

176 人 
a 

178 

dr | * werup board rnfo structure */7 

180 ao = ne doy priv (nde)? 

101 

192 

15.9 

184 ID 

185 ;* driver Sys em function */ 

186 ether setup (ndev); 

1497 

188 ndevecnetdewv ope = &am92000 netoev Ops; 
189 ndev->watchdog timeo 下 NE se 
LU ndeveésethtool -Ops = &dm9000 ethtool ops; 
1-94 

192 ix 

193 pet = rog oter netdev'iuDdev)s 

194 

ToS 4 

196 

1:97 eae Le Anne 

139 m9000 drv removetsLructc Plat orm device "*pdev) 


199. 1 

200 Struct Neu. device “ndev =“plauLorm get drvdatgipdev)s 
20] 

202 unregrscter- netdevindev)s 

203 dm2000 release boardipdev, necdev prrvíindev)); 

204 free netdev (ndev); 7k- free device structure *7 
2:4) 

206-3 

207 

208- FiTder CONEIG- OE 

2093 Siqgtrc CONsSt Surucy OL device zd du9000- I macobesLr--— 

ZLO { .compatible = "davicom,dm9000", }, 

2i [ ge sentinel 9 3 

Zu zs d 

213 MODULE DEVICE TABLE(of, dm9000 of matches); 

214 #endif 

ZAG 

210. Gratie GE rut: Pilatrorm Ori ver Um OVO driver e. 

zy .driver = { 

2:159 .name = "dm9000", 

219 .Owner = THIS MODULE, 

220 «TID — &dm9000 drv pm ops, 

2 :Ot Match Cable: Jr match ptridm2000 of matches? 
DIZ }, 

22 . probe = dm9000 probe, 

224 .remove = dm9000 drv remove, 

22. "s 

226 


221 modale- plactrorm raver tamg000 driver); 


DM90003K2) SEH HAECPUL RK, TERREA AS Te SRE FER I, Hm EE OE A Sik 
DM9000Xt M IAE R wA AY Br FF as FL HE EE, SRS EER MIRO SVR EN By, ARI 514.2025 
出 了 在 arch/arm/mach-at91/board-sam9261ek.c 板 文件 中 对 DM9000 添 加 的 内 容 。 


代码 清单 14.20 ”board-sam9261ek 板 文件 中 的 DM9000 的 平台 设备 


Lotari orru t Te cource Cm V0 resource |i 4 

2 LO] = 3 

3 otare = ATI CHIPSELECT 2, 

4 .end = AT91 CHIPSELECT 2+ 3, 

5 flags. = IORESOURCE MEM 

6 by 

7 LLI S 1 

8 .Start = AT91 CHIPSELECT 2+ 0x44, 

9 .end = AT91 CHIPSELECT 2+ OxFF, 

EO lags. = IORESOURCE.MEM 

LE Ve 

12 ] = { 

1.3 -Lads., = LIORESOURCOE LRO 

14 | IORESOURCE IRQ LOWEDGE | IORESOURCE IRQ HIGHEDGE, 
LS } 

Lory 

ali 

lostatzc Seruce "dm 2000 plat data dE9000 platdace =H 

19 .flags - DM9000 PLATF 16BITONLY | DM9000 PLATF NO EEPROM, 
20]; 
24 
270a IC SUID op bLguform eva ce udm2000 device 3 
2 .name = "dm9000", 
24 el = 0, 
25 num resources = ARRAY SIZE (dmo resource), 
2:0 resource = dm9000 resource, 
2 . dev = { 
28 dplecrorm data. = Kanuo “platdava, 
29 } 


3.0) 9 


14.10 mee 


对 Linux 网 络 设备 驱动 体系 结构 的 层次 化 设计 实现 了 对 上 层 协议 接口 的 统一 和 硬件 驱动 对 下 层 多 样 化 
便 件 设备 的 可 适应 。 程 序 员 需要 完成 的 工作 集中 在 设备 驱动 功能 层 ， 网 络 设备 接口 层 net_device 结 构 体 的 
存在 将 干 变 万 化 的 网 络 设备 进行 抽象 ， 使 得 设备 功能 层 中 除数 据 包 接 收 以 外 的 主体 工作 都 由 填充 
net_device 的 属性 和 函数 指针 完成 。 


在 分 析 net_device 数 据 结构 的 基础 上 ， 本 章 给 出 了 设备 驱动 功能 层 设备 初始 化 、 数 据 包 收发 、 打 开 和 
释放 等 函数 的 设计 模板 ， 这 些 模板 对 实际 设备 驱动 的 开发 具有 直接 指导 意义 。 有 了 这 些 模板 ， 我 们 在 设计 
具体 设备 的 驱动 时 ， 不 再 需要 关心 程序 的 体系 ， 而 可 以 将 精力 集中 于 硬件 操作 本 身 。 


在 Linux 网 络 子 系统 和 设备 驱动 中 ， 套 接 字 缓冲 区 sk_buf 及 挥 着 巨大 的 作用 ， 它 是 所 有 数据 流动 的 载 
体 。 网 络 设 备 驱 动 和 上 层 协议 之 间 也 基于 此 绍 构 进行 数据 包 交 互 ， 因 此 ， 我 们 要 特 列 牢记 它 的 操作 方法 。 


15% Linux EC 核心 、 总 线 与 设备 驱动 
本 章 导 读 


EC 总 线 仅仅 使 用 SCL、SDA 这 两 根 信号 线 就 实现 了 设备 之 间 的 数据 交互 ， 极 大 地 简化 了 对 硬件 资源 
和 PCB 板 布线 空间 的 占用 。 因 此 ，FC 总 线 非 常 广泛 地 应 用 在 EEPROM、 实 时 钟 、 小 型 LCD 等 设备 与 CPU 
的 接口 中 。 


Linux 系 统 定义 了 IC 驱动 体系 结构 。 在 Linux 系 统 中 ，FEC 驱 动 由 3 部 分 组 成 ， 即 FC 核 心 、EC 总 线 驱 动 
和 LFC 设 备 驱动 。 这 3 部 分 相互 协作 ， 形 成 了 非常 通用 、 可 适应 性 很 强 的 FEC 框 架 


15$.1 节 对 Linux 的 FC 体 系 结构 进行 分 析 ， 讲 解 3 个 组 成 部 分 各 自 的 功能 及 相互 联系 。 
1$.2 节 对 Linux 的 EC 核心 进行 分 析 ， 讲 解 i2c-core.c 文 件 的 功能 和 主要 函数 的 实现 。 
1$.3 节 、15$.4 节 分 别 详细 介绍 EC 适配器 驱动 和 IC 设备 驱动 的 编写 方法 ， 给 出 可 供 参 考 的 设计 模板 。 


15.5 节 、15.6 节 以 15.3 节 和 15.4 节 给 出 的 设计 模板 为 基础 ， 讲 解 Tegra ARM 处 理 器 的 EC 总 线 驱 动 ， 以 
挂 接 在 FEC 总 线 上 的 AT24XX 系 列 EEPROM 为 例 讲解 EC 设备 驱动 。 


15.1 Linux EC 体系 结构 


Linux 的 EC 体系 结构 分 为 3 个 组 成 部 分 。 
(1) PCR» 


FC 核 心 提供 了 IFC 总 线 驱 动 和 设备 驱动 的 注册 、 注 销 方 法 ，FC 通 信 方 法 〈 即 Algorithm) 上 层 的 与 具 
体 适 配 郝 无 天 的 代码 以 及 探测 设备 、 检 测 设备 地 址 的 上 层 代 码 等 ， 如 图 15.1 所 示 。 


(2) FC 总 线 驱 动 


IC 总 线 驱 动 是 对 FC 硬 件 体 系 结构 中 适配器 端的 实现 ， 适 配器 可 由 CPU 控制 ， 甚 至 可 以 直接 集成 在 
CPU 内 部 。 


EC 总 线 驱动 主要 包含 FC 适 配器 数据 结构 ic adapter、I*C 适 配器 的 Algorithm 数 据 结构 i2ce algorithm 和 
控制 IC 适 配器 产生 通信 信号 的 函数 。 


eee 
关 的 代码 





图 15.1 Linux 的 EC 体系 结构 


经 由 FC 总 线 驱动 的 代码 ， 我 们 可 以 控制 并 C 适 配器 以 主 控 方 式 产 生 开 始 位 、 停 止 位 、 读 写 周 期 ， 以 及 
AMERITAR EACK. 


(3) PCR UJ 


EC 设备 驱 动 〈 也 称 为 客户 驱动 ) 是 对 FC 人 硬件 体系 结构 中 设备 端的 实现 ， 设 备 一 般 挂 接 在 受 CPU 控 制 
的 EC 适 配器 上 ， 通 过 FEC 适 配器 与 CPU 交换 数据 。 


IEC 设备 驱动 主要 包含 数据 结构 ic driverflli2e _ client， 我 们 需要 根据 具体 设备 实现 其 中 的 成 员 函 数 。 


在 Linux 2.6 内 核 中 ， 所 有 的 EC 设 备 都 在 sys 人 文件 系统 中 显示 ， 存 于 /sys/bus/i2c/ 目 录 下 ， 以 适配器 地 
址 和 心 卢 地 址 的 形式 列 出 ， 例 如 : 


2 
Leys Dusy 1207 
|-- devices 
| [== 3200. > si devi Ccesy platrorm versatile=126.0/126-0 
| eS. LZ => sal sa) va) devices plat iormy versatite-1726..0/7 120-1. 
tese d T VeES 

"=s umy 


在 Linux 内 核 产 代码 中 的 drivers 目 孙 下 有 一 个 ic 目录 ， 而 在 ic 目录 下 又 包 侣 如 下 文件 和 文件 夹 。 
(1) i2c-core.c 

这 个 文件 实现 了 IC 核 心 的 功能 以 及 /proc/bus/i2c* 接 口 。 
(2) i2c-dev.c 


实现 了 IC 适配器 设备 文件 的 功能 ， 每 一 个 C 适 配器 都 被 分 配 一 个 设备 。 通 过 适配器 访问 设备 时 的 主 
设备 号 都 为 89， 次 设备 号 为 0~255。 应 用 程序 通过 “i2c-%d”(i2c-0，i2c-1，...，i2c-10，...) 文件 名 并 使 用 
文件 操作 接口 open O . write ©) 、read ©) ~ ioctl © 和 close〈) 等 来 访问 这 个 设备 。 


i2c-dev.c 并 不 是 针对 特定 的 设备 而 设计 的 ， 只 是 提供 了 通用 的 read ©) . write ©) 和 ioctl O 等 接口 ， 
应 用 层 可 以 借用 这 些 接口 访问 挂 接 在 适配器 上 的 fC 设备 的 存储 空间 或 寄存 器 ， 并 控制 C 设 备 的 工作 方 
a 


(3) busses X fF 3€ 


这 个 文件 包含 了 一 些 FC 主 机 控制 器 的 驱动 ， 如 i2c-tegra.c、i2c-omap.c、i2c-versatile.c、i2c-s3c2410.c 


Ax 
wj o 


(4) algos XF Æ 
实现 了 一 些 FC 总 线 适 配器 的 通信 方法 。 


此 外 ， 内 核 中 的 ic.h 头 文件 对 ji2c adapter. i2c algorithm, i2c driver 和 i2c client 这 4 个 数据 结构 进行 了 
定义 。 理 解 这 4 个 结构 体 的 作用 十 分 重要 ， 它 们 的 定义 位 于 include/linux/i2c.h 文 件 中 ， 代 但 清单 15.1、 
15.2、15.3、15.4 分 列 对 它们 进行 了 插 述 。 


代码 清单 1$.1 i2c adapter 结 构 体 


Iotrucb.q2c Adapter 4 


2 struct module *owner; 

2 unsigned int class; /* classes. to allow probing for *7 

4 COSG- SC raot 17C.-alGeorrtcim Selgo | * the algorithm to. access the bus */ 
E vord: “aloqo..data; 


6 
7 j/* data. fields that ate valid. for all dewices * / 
8 StuLuce ru mubex Dus Lock; 


9 
NS Lut. timeouts Ix xm puIIÍres */ 
TNR int retries; 
I2 struct device dev; /* the adapter device */ 
13 
14 XT E IDE 
135 char name[48]; 
16 Struct. Completion uev Tolead; 
ed 
18 SULUCE mubex USerspace cclrenuts Lock; 
Ae, Svruce. LESE Nead Userspace <clienus, 
20 
2 struck X20 DUS SeCOvery Injo-*5bDus rocovery INLO; 
PA 


代码 清单 1$3.2 i2c algorithm fA] (4 


ISUEHOL 220 2lgorlthm 4 

2 /* If an adapter algorithm can't do I2C-level access, set master xfer 
3 to NULL. If an adapter algorithm can do SMBus access, set 

4 Smbus. xrers. If set. To NULE, tthe SMBus protocol LS gimuülared 

5 using common I2C messages */ 

6 /* master xfer should return the number of messages successfully 

7 processed, or a negative value on error */ 

8 tnt "(MSE KIEJ SC UGG 126 adapter “adap, SCUO 220 meg “megs, 


9 LN. Dum 
LO lite: (ASMUS tort) XSUtruct a2C-adapler~*adap,. ule adds, 
Jd unsrgned short flags, char Tead write, 
d 2 Uo command, ING Size, Unmron 2C. smbus data "data; 
13 
14 /* To determine what the adapter supports */ 
LS uz [ULUDObrOnaLrtv) SL Cuca Ze adapter € 
16}; 


上 述 第 8 行 代 码 对 应 为 C 传 输 函 数 指针 ，FC 主 机 驱动 的 大 部 分 工作 也 聚集 在 这 里 。 上 述 第 10 行 代码 
对 应 为 SMBus 传 输 函 数 指针 ，SMBus 不 需要 增加 额外 引 脚 ， 与 C 总 线 相 比 ， 在 访问 时 序 上 也 有 一 定 的 差 


Ey 
TT o 
代码 清单 15.3 ”i2c driver 结 构 体 


| 


2 unsigned int class; 

2) 

4 /* Notifies the driver that a new bus has appeared. You should avoid 
5 * using this, it will be removed in a near future. 

6 id 

E, Int (^atcbecl qdapocer)tsbpucu 2c ‘adapeer *) -deprecated 

8 

9 /* Standard driver model interfaces */ 

10 ts A Probet EUG 176 CLL “yy “CONS istruce, «2c Gevice Xd $9 

11 II (= Eemove) (Sc Uee ac Cene > 

$2 

13 /* driver model interfaces that don't relate to enumeration  */ 

14 vou, 'Sshucdown) (SUbuCce. 20 CLren. 

12 IIl: (en teu 126 Client: *e pn message LT mesg)y 

16 Ti: (ee rie 2c Cliente 7.2 

Ta 

Tọ /* Alert callback, for example for the SMBus alert protocol. 

19 * The format and meaning of the data value depends on the protocol. 
20 * For the SMBus alert protocol, there is a single bit of data passed 
Zl * as the alert response's low bit ("event flag"). 
22 Ty 
ZS MO. (Palheru (St ruce. 120. Cl went ts d SSgnecd ITE cate): 
24 
2D /* a ioctl like command that can be used to perform specific functions 
20 * with the device. 
2 m 
28 Lr A sCcOmmand) (Seruce mA Chien. “Client, unssgnedo ms cma, org sang); 
29 

30 SULUCE Jevice driver Grive, 


51 CONS) -SEE 20 device xd rg cable; 


29 /* Device detection callback for automatic device creation */ 
34 ine, cWX*5deLtect) (ote AC -CILLISNG Sy SU uoe L206 DOSQTO IIO 7)$ 
39 Conse qgsrOned Shorc Ssddress- LEST 

36 SUruCce- disc. Dead e branco; 

3d 


代码 清单 1$.4 i2c client 结 构 体 


LStrueb 22¢ CLren 4 


2 unsigned short flags; /* div., see below EJ 

3 unsigned short addr; /|* Chap address: = NOTE. Tpit ir 
4 /* addresses are stored in the  */ 
5 /* LOWER 7 bits i 

6 char name]lzc NAME SIZE]; 

7 struct 12c adapter *adapter; /* the adapter we sit on A 
8 SErUCL device -dev; 1a the device Structure E 
9 ioe Be ee /[* irg issued by device P 
10 purucr Lieu. head detected; 


下 面 分 析 i2c adapter. i2c algorithm. i2c driver 和 i2c client 这 4 个 数据 结构 的 作用 及 其 盘根错节 的 天 
系 。 


(1) i2c adapter5i2c algorithm 


i2c adapter 对 应 于 物理 上 的 一 个 适配器 ， 而 i2c_ algorithm 对 应 一 套 通信 方法 。 一 个 上 C 适 配器 需要 
i2c algorithm 拓 供 的 通信 函数 来 控制 适配器 产生 特定 的 态 问 周期 。 缺 少 i2c algorithm 的 i2c_adapter 什 么 也 做 
不 了 ， 因 此 i2c adapter 中 包含 所 使 用 的 12c algorithm 的 指针 。 


i2c_algorithm 中 的 关键 函数 master_ xfer O 用 于 产生 [FC 访问 周期 需要 的 信号 ， 以 i2c_msg〔《 即 IC 消 
ER 为 单位 。i2c_msg 结 构 体 也 是 非常 重要 的 ， 它 定义 于 include/uapilinux/i2c.h “在 uapi 目 录 下 ， 证 明 用 户 
空间 的 应 用 也 可 能 使 用 这 个 结构 体 ) 中， 代码 清单 15.5 给 出 了 它 的 定义 ， 其 中 的 成 员 表 明了 PC 的 传输 地 
址 、 方 向 、 缓 冲 区 、 缓 冲 区 长 度 等 信息 。 


代码 清单 15.5”i2ce msg 结 构 体 


LECEUCTE 220 MSG 4 


2 |  ul16 addr; /* slave address xy 

3 alo flags 

4$define I2C _M TEN OxOO01D yw ehis rs x Len Dit chip address */ 
5S#define I2C M RD Ox0001 /* read data, from slave to master */ 
6#define I2C M STOP 0x8000 /* if I2C FUNC PROTOCOL MANGLING */ 
7#define I2C M NOSTART 0x4000 /* if I2C FUNC NOSTART */ 

8#define I2C M REV DIR ADDR 0x2000 /* if I2C FUNC PROTOCOL MANGLING */ 
94define I2C M IGNORE NAK 0x1000 /* if I2C FUNC PROTOCOL MANGLING */ 
10#define I2C M NO RD ACK 0x0800 /* if I2C FUNC PROTOCOL MANGLING */ 
ll#define I2C M RECV LEN 0x0400 /* length will be first received byte */ 
12 U ene /|*- msg lengch ur 
1:3 1.305, ABUL /* pointer to msg data ari 
14j 


(2) i2c driver 5Eji2c client 


i2c drive M FEIK IK, AEM ek Beprobe () . remove () . suspend () 、 
resume () “, AX, struct i2c device id 形式 的 id table 是 该 驱动 所 支持 的 CC 设备 的 ID 表 。i2c client] 


于 真实 的 物理 设备 ， 每 个 EC 设 备 都 需要 一 个 i2c client 来 描述 。i2e driver 与 i2c client 的 关系 是 一 对 多 ， 一 


个 ji2c driver 可 以 文 持 多 个 同类 型 的 i2c_ client. 


i2c client 的 信息 通常 在 BSP 的 板 文 件 中 通过 i2c board info 填 充 ， 如 下 面 的 代码 就 定义 了 一 个 FC 设 备 
的 I 有 DD 为 “ad7142 joystick”. Jd 7JOx2C. bts AIRQ PFSHi2c client: 


Stabic SDPUDCE 140 Doard Info . Aniidata xxx 12/0 board anol) = { 
#if defined(CONfiG JOYSTICK AD7142) || defined(CONfiG JOYSTICK AD7142 MODULE) 
{ 
12G BOARD INFO("ad/l42 JOYStICK", OxXZC), 
sirg = IRO Piro, 
by 


在 [C 总 线 驱 动 i22c bus type 的 match © 函数 i2c device match © 中 ， 会 调用 i2c match id © 函数 匹 
配 在 板 文件 中 定义 的 ID 和 ic driver 所 支持 的 ID 表 。 


(3) i2c adpaterSi2c client 


i2c adpater 与 i2c_client 的 关系 与 C 硬 件 体系 中 适配器 和 设备 的 关系 一 致 ， 即 ic_client 依 附 于 
i2c adpater。 由 于 一 个 适配器 可 以 连接 多 个 FC 设 备 ， 所 以 一 个 i2c_ adpater 也 可 以 被 多 个 i2c_client 依 附 ， 
i2c adpater 中 包括 依附 于 和 它 的 i2c client 的 链表 。 


假设 fC 总 线 适配器 xxx 上 有 两 个 使 用 相同 驱动 程序 的 yyy FC 设备 ， 在 打开 该 FC 总 线 的 设备 节点 后 ， 
相关 数据 结构 之 间 的 远 辑 组 织 天 系 将 如 图 15.2 所 未 。 







adapters [| 


algo_d: , ， 
algo_data i2c_algorithm 
master_xfe 


functionality 


ags 





图 15.2 ”天 C 驱 动 的 各 种 数据 结构 的 关系 


从 上 面 的 分 析 可 知 ， 虽 然 C 硬 件 体系 结构 比较 简单 ， 但 是 FC 体系 结构 在 Linux 中 的 实现 却 相 当 复 
杂 。 当 工程 师 拿 到 实际 的 电路 板 时 ， 面 对 复杂 的 Linux IC 子 系统 ， 应 该 如 何 下 手写 驱动 呢 ? 究 竞 有 哪些 是 
项 要 亲 目 做 的 ， 哪 些 是 内 核 已 经 提供 的 呢 ? 理 清 这 个 问题 非 第 有 意义 ， 可 以 使 我 们 在 面 对 具 体 问 题 时 迅速 
VUE ER ER 


一 方面 ， 适 配器 驱动 可 能 是 Linux 内 核 本 身 还 不 包含 的 ， 另 一 方面 ， 挂 接 在 适配器 上 的 具体 设备 驱动 
可 能 也 是 Linux 内 核 还 不 包含 的。 因此 ， 工程 师 要 实现 的 主要 工作 如 下 。 


-提供 IC 适 配器 的 硬件 驱动 ， 探 测 、 初 始 化 C 适 配器 (如 申请 fC 的 VO 地 址 和 中 断 号 )、 了 驱动 CPU 控 
制 的 FC 适配器 从 硬件 上 产生 各 种 信号 以 及 处 理 IC 中 断 等 。 


提供 IC 适配器 的 Algorithm， 用 有 具体 适配器 的 xxx xfer O 函数 填充 i2c algorithm 的 master xfer 指 针 ， 
并 把 i2c_ algorithm 指针 赋值 给 ic _adapter 的 algo 指 针 。 


实现 FC 设 备 驱动 中 的 i2c_driver 接 口 ， 用 具体 设备 yyy 的 yyy probe ©) 、yyy remove () 、 
yyy suspend () . yyy resume () 函数 指针 和 i2c device id 设备 ID 表 赋 值 给 i2c_driver 的 probe、Tremove、 


suspend、resume 和 id table 指 针 。 


实现 FC 设 备 所 对 应 类 型 的 具体 驱动 ，i2c _ driver 只 是 实现 设备 与 总 线 的 挂 接 ， 而 挂 接 在 总 线 上 的 设备 
则 和 于 过 万 别 。 例 如 ， 如 果 是 字符 设备 ， 束 实现 文件 操作 接口 ， 即 实现 具体 设备 yyy 的 yyy read O 、 
yyy write () 和 yyy ioctl CO RASS; WRK, NUDSCHLALSASUKZ. 


上 述 工 作 中 前 两 个 属于 IC 总 线 驱 动 ， 后 两 个 属于 fC 设备 驱动 。15.3~15.4 节 将 详细 分 析 这 些 工作 的 实 
施 方 法 ， 给 出 设计 模板 ， 而 15.5~15.6 节 将 给 出 两 个 具体 的 实例 。 
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I*C 核 心 Cdrivers/i2c/i2c-core.c) 中 提供 了 一 组 不 依赖 于 硬件 平台 的 接口 函数 ， 这 个 文件 一 般 不 需要 被 
工程 师 修 改 ， 但 是 理解 其 中 的 主要 函数 非常 关键 ， 因 为 EC 总 线 驱 动 和 设备 驱动 之 间 以 上 C 核 心 作为 纽带 。 
FC 核 心中 的 主要 函数 如 下 。 


(1) 增加 /删除 Pc_adapter 


ine 420 add.adadapterisLruct 12c adapter “adap? 
vold 120 del. adapter(struct L126 adapter *“adap); 


(2) 增加 /删除 i2c_ driver 


int OO 
ee 
#define i2c add driver(driver) \ 

120 rDOgrilsSLer driver (Tails MODULE, CUriver) 


(3) PCH. AIK ABE 


ine 12€ Transier(struct. 220 adapter * adap, Struct izo msg “Msgs, mt num); 
ine 120 Master send(strucce X26 client “Client; Conse Char “bur 221b Counc); 
Int, 140 Master recy (struct 14C clrent 9oclrent, Char *Dur nb Counc) | 


i2c transfer O 函数 用 于 进行 FC 适配器 和 I*C 设 备 之 间 的 一 组 消息 交互 ， 其 中 第 2 个 参数 是 一 个 指 癌 
i2c_msg 数 组 的 指针 ， 所 以 i2c_transfer() 一 次 可 以 传输 多 个 i2c_msg (考虑 到 很 多 外 设 的 读 写 波形 比较 复 
杂 ， 比 如 读 寄 存 器 可 能 要 先 写 ， 所 以 需要 两 个 以 上 的 消 轧 ) 。 而 对 于 时 序 比较 简单 的 外 设 ， 
i2c master send () 函数 和 i2c_master_recv〈) 函数 内 部 会 调用 i2c_transfer() 函数 分 别 完 成 一 条 写 消 轧 和 

一 条 读 少 轧 ， 如 代码 清单 1$.6、15.7 所 示 。 


代码 清单 1$.6 “FEC 核 心 的 ic master send O 函数 


lint 12€ master Send (conse Struct 12¢ client ^ollenL, Const Char “bur, amb count) 


24 

3 int ret; 

4 SLEUCL 220 adapler “adap = cilentecadaprer; 
9 StLrict 2c mèg meg, 

6 

i msg.addr = client->addr; 

8 msg illago = Cclacnc-Silags & I2C M. TEN; 

9 msg.len = count; 
10 Mogi = (char *)bur: 
Il 
12 pet = 1260 tranosierladi r; «msg, 1); 
e 
14 105 
ibs * If everything went ok (i.e. 1 msg transmitted), return #bytes 
16 * transmitted, else error code. 
L7 i 
18 return (ret == 1) count : ret; 


代码 清单 15.7 “FFC 核 心 的 i2c master recv () 函数 


Tire 12 master TeV Cono h SLruocrt 420c00ln8nco FeLi Ghar APUL mt Cour) 


2A 

3 SUPUCE, tC adapter Tadap = Ollen t= adapter, 
4 Struct- 320 meo quedg: 

5 ^mt rete 

6 

i msg.addr = client->addr; 

8 MSG. bago- = Clhienu=ssr lags: uw L26 M TN 

9 mSoy tlogs. p= L2G. MRD? 

10 msg.len = count; 

L msg.buf = buf; 

12 

L3 Per =1 26 vransctertedepy «msg. 1) 7 

14 

lio os 

16 * If everything went ok (i.e. 1 msg received), return #bytes received, 
d * else error code. 

18 a 

19 return (ret == 1) count : ret; 
20} 


i2c transfer CO PRAMAS Er 5H. UG] xe o s RE SER HREJ, E REIRES 
i2c adapter 对 应 的 i2c algorithm， 并 使 用 i2c algorithmH'Jmaster xfer © 函数 真正 驱动 硬件 流程 ， 如 代码 清 
单 15.8 所 示 。 


代码 清单 1$3.8 EC 核心 的 i2ec transfer O K% 


Ene 126 tran Tero ruci LZC adapter =: Adap; Seruce aze. mso “MSGS, Ine. num) 


Z1 

3 int ret; 

4 

5 if a3dogap-salgo-omaster xfer) 4 

6 O 

T ret =- adap --algo-7master xfer (adap; msgs num)? 
8 TE 

9 return ret; 
10 } else { 
i dev dbg(&adap-»dev, "I2C level transfers not supported |n"); 
12 return “ENOSY 5; 
169 ) 


15.3 Linux EC 适配器 驱动 
15.3.1 I<C 适 配器 驱动 的 注册 与 注销 


由 于 IC 总 线 控制 器 通常 是 在 内 存 上 的 ， 所 以 它 本 身 也 连接 在 platform 总 线 上 ， 要 通过 platform_driver 和 
platform_device 的 匹配 来 执行 。 因 此 尽管 C 适 配器 给 别人 提供 了 总 线 ， 它 自己 也 被 认为 是 接 在 platform 总 
线 上 的 一 个 客 尸 。Linux 的 思 线 、 设 备 和 驱动 模型 实际 上 是 一 个 树 形 结构 ， 每 个 市 点 虽然 可 能 成 为 询 人 的 
忆 线 控制 各 ,但 是 目 己 也 被 认为 是 从 上 一 级 忌 线 枚 举 出 来 的 。 


通常 我 们 会 在 与 IC 适配器 所 对 应 的 platform driver 的 probe() 函数 中 完成 两 个 工作 。 
初始 化 FC 适 配器 所 使 用 的 硬件 资源 ， 如 申请 IO 地 址 、 中 断 号 、 时 钟 等 。 


:通过 i2c add adapter () ZJllli2c adapter 的 数据 结构 ， 当 然 这 个 ic_adapter 数 据 结构 的 成 员 已 经 航 XXX 
适 配 磊 的 相应 函数 指针 所 初始 化 。 


通常 我 们 会 在 platform_ driver 的 remove O 函数 中 完成 与 加 载 函 数 相反 的 工作 。 
释放 IC 适 配器 所 使 用 的 硬件 资源 ， 如 释放 WO 地 址 、 中 断 号 、 时 钟 等 。 

-通过 i2c_del adapter © 删除 12c_adapter 的 数据 结构 。 

代码 清单 15.9 所 示 为 [C 适 配器 驱动 的 注册 和 注销 模板 。 

代码 清单 15.9 IC 适 配置 驱动 的 注册 和 注销 模板 


tacte ING RX 120 ProODG(SLEUEE. platroim device ^pdew) 


3 SLruct i20 adapter “adap; 

4 

5 

6 Xxx adpater hw init() 

7 adap->dev.parent = &pdev->dev; 

8 adap--dev.0f node = -pdeve^dev,.,or node; 
9 
10 ro = 1420 add adaptert(adap); 
11 : 

124 

13 

l4static int xxx 12c remove(struct platform device *pdev) 
154 

16 T 

17 xxx adpater hw free() 

18 i20 del &déprter(edev-^caddptet); 

19 

20 return 05 

21} 

22 

ZOStatic CODSUC Struct of device 10 xxx 120 Of Matnli = 4 
24 {, compatible e “vendor, xxx=12C" >}, 

25 {}, 

26]; 

27MODULE DEVICE TABLE(of, xxx i2c of match); 

28 


20SLAaLIO SLPUGLC plattorm driver xxx i20 driver = 1 
30 .driver = | 


34 sname e "X12C", 


3 Owner = THIS MODULE, 

GS JOE Maven. taplo e cxx TZC Of mate, 
34 by 

39 probe = xxx. 120 probe; 

36 remove = Xxx 120 remove, 

37); 


3omodule platform. drrver(xxx LAC QOrrver); 


上 述 代 码 中 的 xxx adpater hw init () 和 xxx adpater hw free () 函数 的 实现 都 与 具体 的 CPU 和 IC 适 
配器 硬件 直接 相关 。 


15.3.2 ”IC 总 线 的 通信 方法 


我 们 需要 为 特定 的 fC 适配器 实现 
PKI BL o 


master xfer () 


functionality ©) 


ER CAES Fil 


通信 方法 ， 主 要 是 实现 i2c algorithmffunctionality ©) 


单 ， 用 于 返回 algorithm 所 文 持 的 通信 协议 ， 如 IC_FUNC DC. 


EK AA 


I2C FUNC 10BIT ADDR, I2C FUNC SMBUS READ BYTE, I2C FUNC SMBUS WRITE BYTE 等 。 


master xfer () pK 


KMEC 


示 为 XXX 设备 的 master xfer () 


代码 清单 13.10 master xfer () 


LSLOLIC Int 120 es 本 ea 


id Ac 
PK 


上 完成 传递 给 它 的 ic _ msg 数组 中 的 每 个 CC 消息 ， 代 码 清 单 1$.10 所 


数 模板 。 


因数 模板 


2 int num) 

on 

4 Sane 

5 for {i = 0; n < num; att) 1 

6 i2c adapter xxx start(); /* 
7 /* 是 读 消息 */ 

8 下 

9 120 adapter xxx setaąaddr{(msg->addr << 1) | 1); /* 
10 i2c adapter xxx wait ack(); > 
ll 120 adapter xxx readbytes(msgse[ln]|-»Dur, mesogsli]--len); /* 
12 长 的 数据 到 msgs [i] ->puf */ 

13 } else f /* 
14 126 adapter xxx Setaddr (msg >a0dr << 1); do 
15 i2c adapter xxx wait ack(); [^ 
16 i2c adapter xxx writebytes(msgs[i]-»buf, msgs[i]->len); /* 
17 长 的 数据 到 msgs [i] ->puf */ 

18 } 

19 } 
20 i2c adapter xxx stop(); [^ 
21} 


上 述 代码 实际 上 给 出 了 一 个 master xfer O 
先 判断 消息 关 型 ， 
恩 产 生 一 个 开始 位 ， 紧 接 看 传送 从 设备 地 址 ， 
停止 位 。 图 15.3 所 示 为 


master xfer () 





TIT e epo e 


图 15.3 master xfer (O SEBXBSIN] Ae 





ELTUCD i20 Msg “Msgs, 


JB *7 


发 送 从 设备 读 地 址 */ 
获得 从 设备 的 ack */ 
读 取 msgs [i] ->len 


是 写 消 息 */ 

发 送 从 设备 写 地 址 */ 
获得 从 设备 的 ack */ 
“imsgs[i]->len 


产生 停 企 位 */ 


第 一 条 IC 消息 


最 后 一 条 
LC 消息 


图 数 模板 中 的 i2c adapter xxx start () 、i2c adapter xxx setaddr () 、 


图 数 处 理 FC 消 息 数组 的 流程 ， 对 于 数组 中 的 每 个 消息 ， 
若 为 读 消 息 ， 则 赋 从 设备 地 址 为 (msg->addr<<1) |1， 人 否则 为 msg->addr<<1 。 
然后 开始 数据 的 及 进 或 接收 ， 且 对 最 后 的 消 轧 

整个 master xfer O 完成 的 时 序 。 


对 每 个 消 
MS PEN 


i2c adapter xxx wait ack () ~ i2c adapter xxx readbytes () . i2c adapter xxx writebytes (2 和 
器 的 底层 硬件 操作 ， 与 KKC 适 配器 和 CPU 的 具体 硬件 直接 相 


i2c adapter xxx stop () 


A 


KAH T sé Baie 
需要 由 工程 师 根 据 心 厂 的 数据 手册 来 实现 。 


i2c adapter xxx readbytes O 用 于 从 从 设备 上 接收 一 串 数 据 ，i2c_ adapter xxx writebytes O 用 于 加 从 
设备 写 入 一 串 数 据 ， 这 两 个 函数 的 内 部 也 会 涉及 EC 总 线 协 议 中 的 ACK 应 答 。 


master xfer O 男 数 的 实现 形式 会 很 多 种 ， 多 数 张 动 以 中 断 方 式 来 完成 这 个 流程 ， 比 如 及 起 便 件 操作 
请 求 后 ， 将 目 己 调度 出 去 ， 因 此 中 间 会 伴随 看 睡 虐 的 动作 。 


多 数 FC 总 线 驱动 会 定义 一 个 xxx _i2c 结 构 体 ， 作 为 i2c_adapter 的 algo_data〈 类 似 “ 私 有 数据 ”) ， 其 中 包 
含 FC 消 息 数组 指针 、 数 组 索引 及 FC 适 配器 Algorithm 访 问 控制 用 的 自 旋 锁 、 等 待 队 列 等 ， 而 
master xfer OO) 函数 在 完成 i2c_msg 数 组 中 消息 的 处 理 时 ， 也 经 常 需要 访问 xxx_i2c 结 构 体 的 成 员 以 获取 寄 
存 磊 基地 址 、 锁 等 信息 。 代 码 清单 1$.11 所 示 为 一 个 典型 的 xxx_i2c 结 构 体 的 定义 ， 与 图 1$.2 中 的 xxx_i2c 是 
对 应 的 ， 有 具体 的 实现 因 硬 件 而 异 。 


代码 清单 1$.11 xxx i2c 结 构 体 模板 


we SCC 

2 Sprimnbiock T LOCK? 

> wait queue head t wait; 

4 SCEUCU. LZE msg “SG? 

5 unsigned int msg num; 
6 unsigned int msg idx; 
J unsigned int msg ptr; 
8 

9 

O 


Sl 32C.dddpber adap; 


| 
一 一 


e. 
, 


15.4 Linux EC 设备 驱动 


FC 设 备 驱 动 要 使 用 i2c_driver 和 i2c client 数据 结构 并 填充 i2c_driver 中 的 成 员 函 数 。i2c_client 一 般 被 包 
舍 在 设备 的 私有 信息 结构 体 yyy_data 中 ， 而 i2c_driver 则 适合 被 定义 为 全 局 变量 并 杞 始 化 ， 代 码 清单 15$.12 上 所 
示 为 已 航 杞 始 化 的 i2c_driver。 


代码 清单 15.12 ”被 初始 化 的 i2c_driver 


lograr ic SEructe isO Craver yyy driver: = 4 


2 .driver = { 

3 .name = "yyy", 

4 boy 

2 . probe = yyy probe, 
6 .remove — yyy remove, 
7 sid table = yyy id, 

9]; 


15.4.1 Linux PCR ASRS ER] CER RS ER 


[2C 设 备 驱 动 的 模块 加 载 函 数 通 过 [2C 核 心 的 i2c add driver () API 函 数 添加 i2c_ driver 的 工作 ， 而 模块 
旬 载 函数 需要 做 相反 的 工作 :通过 IC 核心 的 i2c del driver © 函数 删除 i2e driver。 代 码 清单 15.13 所 示 为 
I*C 设 备 驱 动 的 模块 加 载 与 纯 载 函数 模板 。 


代码 清单 15.13 ”IC 外 设 驱 动 的 模块 加 载 与 卸载 函数 模板 


latatio int —_ Init yyy Init (void) 

zd 

3 return 2c add Griver(Gyyy driver); 
AJ 

omodule Initcall(yyy anit) 7 

6 


TJStaLlo Void xit yyy ©ex10(voi1d) 

8 { 

9 i2c del driver(&yyy driver); 
LUI 


limodule exit (yyy exit); 


15.4.2 Linux IC 设备 驱动 的 数据 传输 


在 FC 设 备 上 读 写 数据 的 时 序 且 数据 通常 通过 i2c msg 数 组 进行 组 织 ， 最 后 通过 i2c transfer O 函数 完 
EX. AMISSIS. 1ABTZR J 1 BE BUB XE Ti Te offS TJ A TT x8 o 


代码 清单 15.14 “FEC 设 备 驱 动 的 数据 传输 范例 


lstruct X2c msc meglz |, 


/* 第 一 条 消息 是 写 消息 */ 














2 

3 msg[0].addr = client->addr; 
4 nso |U|.tlege = Us 

5 msg[0].len = 1; 

6 msg[0].buf = &offs; 

7 /* 第 二 条 消息 是 读 消息 */ 

8 msg[1].addr = client->addr; 
9 mSglli«tleags = £26 M RD; 
10 msg[1].len = sizeof (buf); 
11 msg[1].buf = &buft [0]; 
12 


1 120 praneceriolresut- adapter, msg. 2)3 


15.4.3 LinuxfJi2c-dev.c MEA) AT 


i2c-devc 文 件 完全 可 以 被 看 作 是 一 个 CC 设备 驱动 ， 不 过 ， 它 实 现 的 i2c_client 古 虚拟 、 临 时 的 ， 主 要 是 
为 了 便于 从 用 户 空 间 操作 FC 外 设 。i2c-devc 针 对 每 个 CC 适配器 生成 一 个 主 设备 号 为 89 的 设备 文件 ， 实 现 
了 12c driver 的 成 员 函 数 以 及 文件 操作 接口 ， 因 此 i2c-devc 的 主体 是 “2c driver 成 员 图 数 + 字 和 人 符 设备 驱动 ”。 


i2c-dev.c 所 供 的 i2cdev read O ~ i2edev write O MBO VTA PB] ee read O 和 write ©) 
文件 操作 接口 ， 这 两 个 函数 分 别 调用 IC 核心 的 2c master recv O Mi2c master send O 函数 来 构造 一 条 
FC 消 息 并 引发 适配器 Algorithm 通 信函 数 的 调用 ， 以 完成 消息 的 传输 ， 它 们 对 应 于 如 图 15.4 所 示 的 时 序 。 





图 15.4 i2cdev read () 和 i2cdev write O 图 数 对 应 的 时 订 


但 是 ， 很 遗憾 ， 大 多 数 稍微 复杂 一 点 的 CC 设备 的 读 写 流程 并 不 对 应 于 一 条 消息 ， 往 往 需要 两 条 甚至 
多 条 消息 来 进行 一 次 读 写 周期 〈 即 如 图 1$.5$ 所 示 的 重复 开始 位 的 RepStart 模 式 ) ， 在 这 种 情况 下 ， 在 应 用 
层 仍 然 调用 read O . write © 文件 API 来 读 写 EC 设备 ， 将 不 能 正确 地 读 写 。 


w| am |E 





图 15.5 RepStart 柄 去 


鉴于 上 述 原 因 ，i2c-dev.c 中 的 i2cdev read O 和 i2cdev write () 函数 不 具备 太 强 的 通用 性 ， 没 有 太 大 
的 实用 价值 ， 只 能 适用 于 非 RepStart 模 式 的 情况 。 对 于 由 两 条 以 上 消 居 组 成 的 读 写 ， 在 用 户 空 间 和 需要 组 织 
i2c_msg 消 姑 数 组 并 调用 I2C_RDWR IOCTL 命 令 。 代 码 清单 1$.1$ 所 示 为 2edev ioctl €) ERAT TEE AS 


NS 


代码 清单 1$.1$ i2c-dev c 中 的 iPcdev ioctl © RAY 


lStatic It x2c009ev 10CrulL (struct anode “anode; Struct fate “ILIS, 


e unsigned int cmd, unsigned long arg) 
o4 
4 SULUcCEe 220 Clicnc: “Client = {Struce 2x20 Client ~Jilles Priva c daca; 


5 ae 

6 switch ( cmd ) { 
7 case IZO SLAVE: 
8 


case I2C GOLAVE FORCE: 


9 T /* 设置 从 设备 地 址 */ 
10 case I2C TENBIT: 
11 "n 
La Case 120 PEC: 
is nas 
14 Case: I-G FUNGO? 
1:5 E 
16 case IZC RDWR: 
17 recur 2o0dev 30CLl rdiw(clacnt, arg); 
18 case IZO OMBUS: 
19 053 
20 case IZ2C RETRIES: 
21 T" 
22 case 120 TIMEOUT: 
23 EA 
24 default: 
20 Perurn 2C OCOntrol(olieut,omdy;arg)s 
26] 


2/ireturn O0; 
28} 


常用 的 IOCTL 包 括 PC SLAVE (设置 从 设备 地 址 ) ~ DC RETRIES (没有 收 到 设备 ACK 情 况 下 的 重 
WRB, BRIA) . DC TIMEOU (超时 ) 以 及 IC RDWR. 


代码 清单 15.16 和 代码 清单 15.17 所 示 为 直接 通过 read O ~ write © 接口 和 和 O RDWR IOCTLiE SIC 
设备 的 例子 。 


代码 清单 15.16 ”直接 通过 read © /write OO 读 写 EC 设备 


1l#include <stdio.h> 
2#include <linux/types.h> 
3#include <fcntl.h> 
4#include <unistd.h> 
5#include <stdlib.h> 
6#include <sys/types.h> 
J/#include €«sys/ioctl,.h» 
S#tinclude «linux/i2c.h» 
9#include «linux/i2c-dev.h» 


10 

llint main(int argc; char **argy) 
L24 

13 unsigned int fd; 

14 unsigned short mem addr; 

1 unsigned short size; 

16 unsigned short idx; 

17 #define BUFF SLAE 32 

16 enar Duri [BUFF SIAEJI; 

1:9 Char cswap; 

20 union 

zy { 

22 unsigned short addr; 

23 char bytes[2]; 

24} tmp; 

25 

26 IT (arga < 3) 4 

2] printf("Use:An$s /dev/i2c-x mem addr size\n", argv[0]); 
20 return 0; 

29 } 

30 SsCani (argvizl, "d". &mem addr); 
S sscanf(argv[3], "sd", &size); 
32 

33 if (size > BUFF SIZE) 

34 Size = BUFF SIZE; 

a 

36 fd = open(argv[1], O RDWR); 
37 

38 if (tid) 4 

39 printi ("Error on opening the device file\n"); 
40 return 0; 

41 ) 

42 


43 | ioctl(fd, I2C SLAVE, 0x50); /* 设置 已 EPROM 地 第 */ 
44 ioctl(fd, I2C TIMEOUT, 1); /* REEN */ 
45 ioctl(fd, I2C RETRIES, 1);  /* ugsuyok */ 


46 

47 fOr (20x = 07 10m < Size; Trid; diem addr) 4 
48 tmp.addr = mem addr; 

49 cswap = tmp.bytes[0]; 

50 tmp.bytes[0] = tmp.bytes[1]; 

aL tmp.bytes[1] = cswap; 

52 write(fd, &tmp.addr, 2); 

53 read(fd, &buf[idx], 1); 

54 } 

OS buf[size] = 0; 


56 close(ttfo); 

5] printf("Read td char: $$Xn", size, buf); 
58 return y 

59) 


代码 清单 15.17 通过 O RDWR IOCTL 读 写 2C 设 备 


l#include <stdio.h> 
2#include <linux/types.h> 


3¢#include <fcntl.h> 

A#include <unistd.h> 

5#include <stdlib.h> 

6#include <sys/types.h> 

7#include <sys/ioctl.h> 

S#include <errno.h> 

9#include <assert.h> 

10#include <string.h> 

ll#include <linux/i2c.h> 

12#include <linux/i2c-dev.h> 

13 

14int main(int argc, char **argv) 

L94 

loOSCtPHUCL- 120 rowr 100tl data work queue; 
l7unsigned int idx; 

1Sunsigned int. fd; 

l9unslgned amt slave address, eg address; 
20unsigned char val; 


ZL m3 

Z2TAINt ret; 

2 

24if (argc < 4) { 

25 printf ("Usage:\n%s /dev/i2c-x start addr reg addr\n", argv[0]); 
Z5 return 0; 

21) 

28 

22ra = Open (argvill, O BDWE); 

20 

311 (Ifd) 4 

a2 printf("Error on Opening the device filen")? 
Do return 0; 

34} 


3osscanbLt(artgvLi2l, "9x", Slave address); 
2Sosscanf(argvIiIS]l, "9x", &reg address); 


Cw, 

38work queue.nmsgs = 2; /* 消息 数量 */ 

o9wWOrk queue- -mogo = (struct azc msq*)malloc(work queue.nmsge “orze (SC ruc 
40 126€ MSO) ) 3 

Alif (!work queue.msgs) 1 

42 printi" Memory alloc etrotin'")3 

43 close(fd); 

44 return 0; 

45) 

46 

47ioctl(fd, I2C TIMEOUT, 2); /* 设置 超时 */ 

48100tl(fd, I2C RETBIES, 1)? /* 设置 重 试 次 数 */ 

49 

DUEOr XL = reg address; 1 < reg address P 167 IPF) 1 

5l val = 1i; 

BZ work queue, msgs|0)) len = 14 

5S (work queue.msqs[0]).addr = slave address; 

54 (work queue.msgs[0]).buf = &val; 

59 

56 (work queuedusgepLil).lem = 1; 

F] (work. queue.msgs|l)).tlags = 12C MRD; 

58 (work queue.msgs[1]).addr = slave address; 

59 (work queue.msgs[1]).buf = &val; 

60 

61 ret = ioctl(fd, I2C RDWR, (unsigned long) &work queue); 
62 if (ret < O0) 

6 3 printf("Error during I2C RDWR ioctl with error code: $dXn", ret); 
64else 

65 printf("reg:$02x val:%02x\n", i, val); 

66 } 


6/close (fd); 
68return ; 
69} 


使 用 该 工具 可 指定 读 取 某 PC 控制 器 上 某 PC 从 设备 的 某 寄 存 器 ， 如 读 PC 控 制 器 0 上 的 地 址 为 0x18 的 从 
设备 ， 从 寄存 器 0x20 开 始 读 ; 


# i2c-test /dev/i2c-0 0x18 0x20 
reg:20 val:07 
reg:21 val:00 
reg:22 val:00 
reg:23 val:00 
reg:24 val:00 
reg:25 val:00 
reg:Z26 val:00 
reg:27 val:00 
reg:28 val:00 
reg:29 val:00 


reg: 
reg: 
reg: 
reg: 
reg: 
reg: 


2a 
Ab 
ZC 
ZC 
2e 
Zu 


val: 
Vals 
val: 
val: 
val: 
vals 


00 
00 
00 
00 
00 
00 


15.5 Tegra EC 总 线 驱 动 实 例 


NVIDIA Tegra EC 总 线 驱动 位 于 drivers/i2cbussesi2c-tegra.c 下 ， 这 里 我 们 不 具体 研究 它 的 硬件 细节 ， 
只 看 一 下 驱动 的 框架 和 流程 。 


FEC 总 线 驱 动 是 一 个 单独 的 驱动 ， 在 模块 的 加 载 和 御 载 函数 中 ， 只 需 注 册 和 注销 一 个 platform_driver 结 
构 体 ， 如 代 但 清单 19.18 所 示 。 


代码 清单 15.18 Tegra EC 总 线 驱 动 的 模块 加 载 与 卸载 


1/* Match table for of platform binding */ 
Ten Sttuct OF device 10 tegra 120 Of maronii e 34 


3 | Compatible = “nvadid,;tegrall4-1276", «daca = etegrall4 12€ lw; Jy 
4 | DOONMDALIDIe = "nviocia,tegrao0- 2120", adala StegraoU 120 Dw, Js 
5 L <COMpatible e "nvidia,tegra209120', «data €Legra20 140 DW; Jy 
6 | Compatible = "nyvidia,tegra20e120-dvo", «data = .&tegra20 212€ Hwy fy 
7 {}, 

9]; 

9MODULE DEVICE. TABLE (OT; tegra 146 or match); 

10 

LlsStarlc SCEPUOLÉC platrornm Craver vegra L20 Urter = 4 

TZ . probe = Legra 120 probe, 

13 -remove  tegra 120 remove, 

14 .driver = { 

15 .name = "tegra-i2c", 

16 .owner = THIS MODULE, 

L7 .of match table = tegra i2c of match, 

18 .pm = TEGRA I2C PM, 

i? by 

20} 

2 

Ap ALIG nb . ILL Ltegra 120 anil OEPIVeri(vordq) 

204 

24 return DLaLforu driver register (<cregra 12C driver); 

29] 

26 

2ISLALIG VOIG . exit Tegra 120 xI drrver(vorzo) 

28 { 

2g Plat orm driver unregiscter(Sstegra 220 Griver); 

20] 

24 


S28ubsys ixnrtcall(tegra 120 Anit driver); 
33module exit(tegra i2c exit driver); 


当 在 arch/army/mach-tegra 下 创建 一 个 名 字 为 tegra-i2c 的 同名 platform device， 或 者 在 tegra 的 设备 树 中 添加 
J tegra i2c of match LEKRA TT Am,  bXhplatform driver 中 的 probe O 图 数 会 执行 。 


其 中 probe 指 针 指 同 的 tegra_ i2c probe O 函数 将 被 调用 ， 以 初始 化 适 配 磊 价 件 、 申 请 适 配 疾 要 的 内 
存 、 时 钟 、 中 断 等 资源 ， 最 终 注册 适 配 咒 ， 如 代码 清单 1$.19 所 示 。 


代码 清单 15.19 Tegra IC 总 线 驱 动 中 的 tegra i2c probe © 函数 


lsrtatrio ant tegra 120 probe (struct platform device *pdev) 
Z1 


CO 


SLEUCL Legra 120 09v FIZO dev, 
Struct resource res) 
SEE 
0 

void | iomem *base; 

XI irg? 

int. ret = 0} 


e O € O9 9] y CH A 


= H 


res = platform geL resource (pdev, IORESOURCE MEM, 0); 


dad base = devm ioremap resource(&pdev-»dev, res); 


1.9 Dt 

14 res = cplatrorm get resourcedpdev, IORESOURCE -TRO UJ? 
15 

1:6 irg = cres-cSstart; 

T 

io: div CLR = devi- clk gqeu (epdev=>dev,, Torv= Clk") 

iS, 

2 

254. ioc dew = devm, kzelbbloc(spdevecdev,. Suzeoti(^rl2C0- dev), GEP SERNENM 
2 

VAS 

24 LAC: dev—=sbase = Dase; 

2 tC dey-comy elk eve cds 

26 Rc xuevecadapter boo: =. Gregra: 126 algo; 

2 qc eve Ig e Eg 

2.0 120 dev CODE Xd ecpdeveugs 

2 .20 :dev-»dev = &pdeve-dev; 

30 

Sol Le SC = devil reset con rol-ogetospoeve dev, VoM 
32 

Dus 

34 rel =O property read U32120 dev-dev-^ot node, "ocloek-rIreguency", 
39 6176. QEV Oae CLR race); 

36 if (ret) 

37 i2c.dev-»bus clk rate = 100000; /* default clock rate */ 
38 

33 下 

40 

Al aoe 

42 int: sGompletioni(e)2C dev-e^msg complete); 

43 

44 

45 

46 Plat ror Set Wrvdata(pdey, uw2c-xew). 

47 

48 Deb =. Vegra: T2606 tn eae dev) 

49 

50 

OL tel deum request LIPqOo&pdev- dev, 2c deve rdg 

52 tegra 20 ISP, Oy dev name(«puaev--dev). 2260 dev). 
923 

54 

95 IZO Set gdapdatea(terocodeve-adapbert, 20. dev). 

30 I20 dev-^adapLter.owner =- THIS- MODULE? 

oy i20 Ulevecadapterclaess = I260 CLAS9 DEPRECATED} 

OD otcrlocpy(r2c devesaddprer.name, “Teqra [2C Adapter"; 
59 sreo (120 -dev >adapter nans) 

60 ee 

onl 120 dev-»agdapter.devparent =- &pdev--dev; 

62 R20 devs Adapteren e —cpoeve c, 

63 12€ devecadapter,.dev.or.node —'pdev-sdev.or node; 

64 

65 ret = 120 add numbered adapter(si2c dev--adapter); 

66 

67 

68 return 0; 

69 } 


有 与 tegra i2c probe O PAU TIRE AZt etegra i2c remove () PAW, EEA ASHE Ee EN ay PK AY 
调用 platform driver unregister CO rA ZH] 3 platform driver 的 remove 指 针 方 式 委 调用 。 
tegra i2c remove () 的 代 人 码 如 清单 15.20 所 示 。 


代码 清单 1$.20 Tegra I C 总 线 驱 动 中 的 tegra i2c remove () 函数 


IStgcrc Int tegra. T420- TemovS Struct platform device: *pdev) 


2{ 

S SULUCE Tegra 120 dev 5420 devo platrtosndugesuusvdaietpaews 
4 120 deli adäpter (4120 dev-sagdapter); 

3 rertürm 0; 

6} 


代码 清单 1$.19 和 代码 清单 1$.20 中 的 tegra_ i2c dev P ls u] ží as PTA fe BR, APA 
言 轧 结构 体 ， 代 人 码 清单 1$.21 所 示 为 tegra_i2c_ dev 结构 体 的 定义 。 我 们 在 编程 中 要 时 刻 牢 记 Linux 这 个 编程 


这 实际 上 也 是 面 癌 对 象 的 一 种 体现 。 


代码 清单 15.21 tegra i2c dev 结 构 体 


Struct. hegre. 126 dev. 4 


tegra i2c probe () 


struct device *dev; 


COnSLSLruct tegra: 120 nw. feature: *hw; 


SELUCE 120 adapter adapter; 
CPUet CLR; “div «dE 
Strüuct-ooILk fast. GLK; 
SUPUCE, Pece COMUCrOlL “Tt 
VOLO: omnem “base, 

IAG, COME: y 

EAC. SP 

bool Irq grsabled; 

InG ape: AVC) 

struct completron msg compiete; 
Mae, MSG or? 

us. meg Iul 

Sizo- Msg, our remaining; 
int msg read; 

uo2 PUS Clk race; 

bool. 28. suspended; 


Krt platform set drvdata (pdev, i2c dev) 和 i2c set adapdata (&i2c dev- 


>adapter, i2c dev) 已 经 把 这 个 结构 体 的 实例 依附 到 了 platform _ device 和 i2c_adapter 的 私有 数据 上 了 ， 在 其 
他 地 方 只 要 用 相应 的 方法 就 可 以 把 这 个 结构 体 的 实例 取出 来 。 


由 代码 清单 15.19 的 第 60 行 可 以 看 出 ， 与 1C 适 配 
Aid 15.2223 tH tegra i2c algo 的 定义 。 


代码 清单 15.22 tegra i2c algo 结 构 体 


PS Galt: CONS Seruce 122€ cdlgorrthm t egra 12€ algo. = 


2 
3 


4j; 


上 述 代 码 第 一 行 指 定 了 Tegra EC 总 线 通信 传输 函 
总 线 上 对 设备 的 访问 最 终 应 该 由 它 来 完成 ， 代 但 清单 1$.23 所 示 为 这 个 重要 


tegra i2c xfer msg () 


Master xXrer = tegra 126. 26r; 
EUNT Lone cy. = LEG ra: Age BUG 


疯 数 的 源 代 但 。 


{ 


数 tegra i2c xfer OO ， 


代码 清单 15.23 Tegra PCH RIKS HJ tegra i2c xfer (OO P 


Totari: Dt. tegra 2c rer msg (Suruce Tegra 12G dey 4176 dev; 


2 


SLPUCL': T2606 meg msg, enum msg end type end State) 


1260 dev-onsg DUL equsg--but; 


L2c dev—->msg bul remaining. = msg--len; 


20.09 Ome eri = 126 ERR- NONE? 


l0 deveomsg (ead = :umsg-o5nlags © IZC MRD); 
reine sCOMp Let LomUGi7 eC deve nmso complete 


packet header = 


PACKET HEADERO PROTOCOL I2C | 


(i2c dev-»cont id << PACKET HEADERO CONT ID SHIFT) 


(1 «« PACKET HEADERO PACKET ID SHIFT); 
LC. WIcIet(r2c dev, puccecchedder. 120. 1x IDEO) 


(0 «« PACKET HEADERO HEADER SIZE SHIFT) | 


ae wJi2c algorithmZ& ASE Pl 7Jtegra i2c algo, 


Xv PRE Aa CBE, PTA TEPC 
图 数 以 及 其 依赖 的 


Sh packet header Mm en = Ly 

18 LO WritelliZce dey, packer. Neaden, T20: EERO}; 
T9 

20 

21. 

27 pet e waat fOr Com leton Lrmeoutc&sri2c dev-omsg complete, TEGRA 120 TIMEOUT); 
23 

24} 

29 

ZOSUSUTC Int Legra- 120 Xert ruci 12C- adapter “adap; Struct T2606 meg msgs [y 
21 int num) 

201 

23 人 

30 ania S 

31 int ret = 0; 


35 for (1 = 07 T < mum? a). 1 

36 enum meg end type. end type =. MSG END--STOP; 
S if (i < (num - 1)) { 

36 Lf AmSsgs a. Ls flog € -12C M NOSTART) 
39 end type = MSG END CONTINUE; 

40 else 

41 end type = MSG END REPEAT START; 
42 } 

43 pet = cbegrmae 220 xrer meg (ize: dev,. Smsos ils; send. byes); 
44 if (ret) 

45 break; 

46 } 

47 pegra 126 Clock dusabletr2c dev); 

48 return ret : i; 


从 代码 层面 上 看 ， 第 35 行 的 for 循 环 裔 历 所 有 的 i2c msg， 而 每 个 12c msg 则 由 tegra i2c xfer msg ( rf 
数 处 理 ， 它 每 次 友 起 人 硬件 操作 后 ， 实 际 上 需要 通过 wait for completion timeout O 等 待 传输 的 完成 ， 因 此 
这 里 面 就 会 有 一 个 被 调度 出 去 的 过 程 。 中 断 到 来 且 IC 的 包 传 输 结 束 的 时 候 ， 就 是 唤醒 这 个 睡眠 进程 的 时 


候 ， 如 代码 清单 15.24 所 示 。 
代码 清单 15.24 Tegra EC 总 线 驱动 的 中 断 服 务 程序 


ee 
21 


4 

5 if (status & I2C INT PACKET XFER COMPLETE) | 
6 BUG ON(12c- deve^msg bur remarninmg); 

7 complete (&1izc dev-»msg complete); 

8 j 

9 return. LRO HANDLED; 


15.6 AT24xx EEPROM 的 EC 设备 驱动 实例 


drivers/misc/eepromyat24.c 文 件 支 持 大 多 数 C 接 口 的 EEPROM， 正 如 我 们 之 前 所 述 ， 一 个 具体 的 FC 设 
备 驱动 由 i2c_driver 的 形式 进行 组 织 ， 用 于 将 设备 挂 接 于 FC 总 线 ， 组 织 好 了 后 ， 再 完成 设备 本 身 所 属 类 型 
的 驱动 。 对 于 EEPROM 而 言 ， 设 备 本 身 的 驱动 以 bin_ attribute 二 进 制 sys 氏 节点 形式 呈现 。 代 码 清单 1$.25 给 
th S ASK SAIN AEZE 


代码 清单 1$5.2$ AT24xx EEPROM 驱动 


lSLPuect St data 1 


2 struct at24 platform data chip; 
3 eas 
4 Scruce bin gturiDute bin; 
6]; 
4 
OSLALIC CONSEC Struce azc device 10 8:24 T1055|1 = 1 
9 /* needs 8 addresses as A0-A2 are ignored */ 
10 { "24c00", AT24 DEVICE MAGIC(128 / 8, AT24 FLAG TAKE8ADDR) ], 
11 /* old variants can't be handled with this generic entry! */ 
12 ( "24c01", AT24 DEVICE MAGIC(1024 / 8, 0) }, 
15 ( "24c02", AT24 DEVICE MAGIC(2048 / 8, 0) }, 
14 is 
15 { /* END OF LIST */ } 
16}; 
17MODULE DEVICE TABLE (i2c, at24 ids); 
18 
l9Stqtro- $5126 t 2524 Seprom tead (struct qt24 data tat-4; Char “bur, 
20 unsigned EEC SIze © Count) 
21{ 
22 SLPUGL 220 msg mogla]; 
23 "m 
24 L20 L ranoier (clien “adap lers Msg, 2); 
AD 
26} 
2 7 
2OSLSgLIC- SSizZe © at24 read(sStruct ab24 data *at24; 
29 Char “Dut, LOCI C Oli; SIZ t Count) 
504 
31 
dd 
30 Status = atz4 ‘eeprom read(atz4, but; Oll; count); 
34 
39 
36 return retval; 
37 } 
38 
S9BDSLLOC Ssi7e L ab74 bin resdisLtpucr file ILP; Struck KODJecL- *EODJ; 
40 Struct. Dill a CCrLDULS “acer, 
41 Chat “Dut, Loil © Obi; Size 1 Counc) 
42 { 
43 struct at24 data *3t24; 
44 
45 at24 = dev get drvoata(XcoHntaluer or(koby, SLtruct device, koby)); 
46 Bpetura atad. read (tr Dub, Obl, Counc); 
47} 
48 
49... 
50 
olo lacio ane 24:24 probe(struct 220 clrenu “Cliente, Const Struct 120 device Ld ^ad) 
52 { 
oe T» 
54 SYSIS Din atir initi(iesquL24- Din) 
3 at24->bin.attr.name = "eeprom"; 
56 at24-»bin.attr.mode = chip.flags & AT24 FLAG IRUGO S5 IRUGO : $8 IRUSR; 
ou dUZ4—^2DL1iH.read e atz4 bin read; 
o0 at2de-sDinjgsi12e = chapsbyce len; 
59 
60 TP 
61 return err: 
62] 
63 


OTSLQLiC Int 2624 remove(struct X20 client ellient) 
65{ 


66 

67 systs remove Din file(sclient--»dev.kobj]; satz4=>bin); 
68 

69 

TU return U7 

71] 

T2 

TSSEQLLO SUCIUCL 12€ driver atA driver — 4 
74 .driver = { 

75 .name = "at24", 

1149 .owner = THIS MODULE, 
11 by 

78 probe = &8L24 probe; 

79 .remove = at24 remove, 

80 „id table = at24 ids; 

81}; 

82 

OSSLatlo Int -Init Qt24 ane (void) 

84{ 

DO ju 

86 return iZc add driver (éat24 driver); 
87 } 

88module init(at24 init); 

89 

90static void | exit at24 exit(void) 

91{ 

92 ToC del driver (¢at24 driver); 
93) 

94module exit(at24 exit); 


drivers/misc/eepronyat24.c 不 依赖 于 具体 的 CPU 和 IC 控制 器 的 人 硬件 特性 ， 因 此 ， 如 果 某 一 电路 板 包含 
该 外 设 ， 只 需要 在 板 级 文件 中 诬 加 对 应 的 PPc board info, QU: 


Static Struct 12¢ board inio azc devel] 
{ I2C BOARD INFO("24c02", 0x57), }, 


Ani dala = 4 


be 


在 支持 设备 树 的 情况 下 ， 简 单 地 在 .dts 文 件 中 添加 一 个 节点 即 可 : 


CULLUUU 3 
status = "okay" 


eeprom@57 { 
compatible = "atmel,24c02"; 
reg = «0x57»; 

^; 


15.7 总结 


Linux] CJ zs 2 S AH 2A AR, EE BER PPA, BUCH. PCR AGIAN AIP CH A). 
I*C 核 心 是 FC 总 线 驱 动 和 I*C 设 备 驱动 的 中 间 枢 纽 ， 它 以 通用 的 、 与 平台 无 关 的 接口 实现 了 IC 中 设备 与 适 
配器 的 沟通 。FEC 总 线 驱 动 填充 ji2c adapter 和 i2c algorithm 结 构 体 ，I2C 设 备 驱 动 填充 i2c driver 结 构 体 并 实现 
其 本 吴 所 对 应 设备 类 型 的 驱动 。 


另外 ， 系 统 中 ic-devc 文 件 定义 的 主 设备 号 为 89 的 设备 可 以 方便 地 给 应 用 程序 提供 读 写 EC 设备 寄存 器 
的 能 力 ， 使 得 工程 师 在 大 多 数 时候 并 不 需要 为 具体 的 FC 设 备 驱 动 定 义 文 件 操作 接口 。 


第 16 章 ”USB 主 机 、 设 备 与 Gadget 张 动 
本 章 导读 


在 Linux 系 统 中 ， 提 供 了 主机 侧 和 设备 侧 视 角 的 USB 了 驱动 框 架 ， 本 章 主 要 讲解 从 主机 侧 看 到 的 USB 主 
机 控制 占 驱 动 和 人 设备 驱动 ， 以 及 从 设备 侧 看 到 的 设备 控制 血 和 Gadget 驱 动 。 
16.1 市 给 出 了 Linux 系 统 中 USB 了 驱动 的 整体 视图 ， 讲 解 了 Linux 中 从 主机 侧 和 设备 侧 看 到 的 USB 驱 动 层 


IRo 


MENLMHERKE, mg 53 USBI ET Lt LPs il a KR, USBEDLE Ti 
器 驱动 程序 控制 插入 其 中 的 USB 设 备 ， 而 USB 设 备 驱动 程序 控制 该 设备 如 何 作 为 从 设备 与 主机 通信 。16.2 
节 分 析 了 USB 主 机 控制 器 驱动 的 结构 并 给 出 Chipidea USB 主 机 驱动 实例 ，16.3 节 讲解 了 USB 设 备 驱动 的 结 
构 及 其 设备 请 求 块 处 理 过 程 ， 并 给 出 了 USB 键 盘 驱 动 实例 。 


从 设备 侧 的 角度 来 看 ， 包 含 编 写 USB 设 备 控 制 器 CUDC) 驱动 和 Gadget Function 驱 动 两 类 ，16.4 节 对 
UDC 和 Gadget 张 动 进行 了 讲解 ， 并 给 出 了 Chipidea USB UDC 和 Loopback Function 作 为 实例 。 


16.5 节 人 简 蛙 地 介绍 了 一 下 USB OTG 了 驱动 。 


16.1 节 与 16.2~16.5 节 是 整体 与 部 分 的 天 系 。 


16.1 Linux USBJEZJJ EZ (X. 


16.1.1 主机 侧 与 设备 侧 USB 驱 动 


USB 采 用 树 形 拓 扑 结构 ， 主 机 侧 和 设备 侧 的 USB 控 制 嚣 分 别称 为 主机 控制 器 (Host Controller) 和 USB 
设备 控制 器 CUDCO ， 每 条 总 线 上 只 有 一 个 主机 控制 器 ， 负 责 协 调 主机 和 设备 间 的 通信 ， 而 设备 不 能 主 
动 问 主机 发 送 任何 消息 。 如 图 16.1 所 示 ， 在 Linux 系 统 中 ，USB 驱 动 可 以 从 两 个 角度 去 观察 ， 一 个 角度 是 
主机 侧 ， 一 个 角度 是 设备 侧 。 


如 图 16.1 的 左 侧 所 示 ， 从 主机 侧 去 看 ， 在 Linux 驱 动 中 ， 人 处 于 USB 驱 动 最 底层 的 是 USB 主 机 控制 器 硬 
件 ， 在 其 上 运行 的 是 USB 主 机 控制 禹 驱动 ， 在 主机 控制 各 上 的 为 USB 梯 心 层 ， 骨 上 层 为 USB 设 备 驱 动 层 
(插入 主机 上 的 U 盘 、 鼠 标 、USB 转 串口 等 设备 张 动 ) 。 因 此 ， 在 主机 侧 的 层次 结构 中 ， 要 实现 的 USB 张 
动 包 括 丙 类: USB 主 机 控制 硕 驱 动 和 和 USB 设备 驱动 ， 前 者 控制 插入 其 中 的 USB 设 备 ， 后 者 控制 USB 设 备 如 
何 导 主机 通信 。Linux 和 内核 中 的 USB 核 心 员 贡 USB 张 动 管 理 和 协议 处 理 的 主要 工作 。 主 机 控制 益 红 动 和 设 
备 蝶 动 之 则 的 USB 核 心 非 第 午 要 ， 其 功能 包括 : 通过 定义 一 些 数 据 结 构 、 安 和 功能 函数 ， 同 上 为 设备 驱动 
提供 编程 接口 ， 同 下 为 USB 主 机 控制 如 驱动 提供 编程 接口 ， 维护 整个 系统 的 USB 设 备 信 息 ; 完成 设备 热 插 
拔 控 制 、 忌 线 数据 传输 控制 等 。 
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| 
从 运行 Linux 的 主机 侧 看 | | 从 运行 Linux 的 设备 侧 看 
| 
USB 设 备 驱动 | | 
Mass storage/CDC/HID 


| 

| 
= . : "CT = O O | d 
| Gadget Function 驱 动 ( Mass storage/serial...) | | 
| 


Gadet Function AP] 
l Tel » Yee t1 $ =a ~y /> 7", /T ~ | | f ™ psa f / ^ Y 
| | USB 主 机 控制 器 驱动 OHCVEHCWUHCI| i | UDC 驱动 Comap/pxa2xx...) 
| 


| 
USB 主 机 控制 器 | ! USB 设 备 控制 器 
| 





| ee 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


USB 总 线 


图 16.1 Linux USBI t fk Zi f 





E161 AM Aras, Linux Ni FP USB DU JEJE FF a ABNER: UDC 张 动 程 序 、Gadget 
Function API 和 Gadget Function 驱 动 程序 。UDC 驱 动 程序 直接 访问 硬件 ， 控 制 USB 设 备 和 主机 间 的 底层 通 
信 ， 向 上 层 提供 与 硬件 相关 操作 的 回调 函数 。 当 前 Gadget Function API 是 UDC 豫 动 程序 回调 函数 的 简单 包 
装 。Gadget Function 驱 动 程序 具体 控制 USB 设 备 功能 的 实现 ， 使 设备 表现 出 “网 络 连 接 *、“ 打 印 机 ”或 “USB 
Mass Storage" 等 特性 ， 它 使 用 Gadget Function API 控 制 UDC 实 现 上 述 功 能 。Gadget Function API 把 下 层 的 
UDC 驱 动 程序 和 上 层 的 Gadget Function 驱 动 程 序 隔离 开 ， 使 得 在 Linux 系 统 中 编写 USB 设 备 侧 驱动 程序 时 能 
够 把 功能 的 实现 和 底层 通信 分 离 。 


16.1.2 We, BOB. HO, WA 


FEUSBIC SBA, Aas. ACS. HOA G4. 


BE-S USB ich eb se eA le) a Ae is ek, PE EXT BOE. A E EE 8 AB HS PF] 
的 功能 组 合 〈《 在 探测 /连接 期 间 需 从 其 中 选 定 一 个 ) ， 配 置 由 多 个 接口 组 成 。 


在 USB 协 议 中 ， 接 口 由 多 个 靖 氮 组 成 ， 代 表 一 个 基本 的 功能 ， 征 USB 设 备 张 劲 程序 控制 的 对 象 ， 一 
功能 复杂 的 USB 设 备 可 以 具有 多 个 接口 。 每 个 配置 中 可 以 有 多 个 接口 ， 而 设备 接口 是 端点 的 汇集 
(Collection) 。 例 如 ，USB 扬 声 絮 可 以 包含 一 个 首 频 接口 以 及 对 旋钮 和 按钮 的 接口 。 一 个 配置 中 的 所 有 
接口 可 以 同时 有 效 ， 并 可 被 不 同 的 驱动 程序 连接 。 每 个 接口 可 以 有 备用 接口 ， 以 提供 不 同 质量 的 服务 参 
数 。 


痛 点 是 USB 通 信 的 最 基本 形式 ， 每 一 个 USB 设 备 接口 在 主机 看 来 融 是 一 个 疹 氮 的 集合 。 主 机 只 能 通 
师 点 与 设备 进行 通信 ， 以 使 用 变 备 的 功能 。 在 USB 系 统 中 每 一 个 病 点 都 有 唯一 的 地 址 ， 这 和 古 由 设备 地 址 和 


病 点 号 给 出 的 。 每 个 病 点 都 有 一 定 的 属性 ， 其 中 包括 传输 方式 、 总 线 访问 频率 、 市 视 、 号 和 数据 包 的 
最 大 容量 等 。 一 个 USB 奖 点 只 能 在 一 个 方 网 上 素 载 数据 ， 从 主机 到 设备 《〈 称 为 输出 妆 氮 ) 或 者 从 设备 到 主 
BL AAA mA ， 因 此 痛 氮 可 看 作 征 一 个 单 同 的 管道 。 病 点 0 通 吊 为 控制 靖 点 ， 用 于 设备 初始 化 参数 
等 。 只 要 设备 连接 到 USB 上 并 且 上 电 ， 奖 氮 0 束 可 以 极 访 问 。 、2 等 一 般 用 作 效 据 痪 点 ， 人 存放 主机 与 
设备 间 往 来 的 数据 。 


忆 体 而 主 ，USB 设 备 非 第 复 淋 ， 由 许多 不同 的 远 辑 持 元 组 成 ， 如 图 16.2 所 示 ， 这 些 蛙 元 之 间 的 天 系 如 


| 没 备 描述 符 





| 配置 1 
| 接口 0 | | 接口 1 | 接口 2 
| ee 1. i 























| wm | wm J| me | | 
16.2 ”USB 设备 、 配 置 、 接 口 和 端点 





设备 通 季 有 一 个 或 多 个 配置 ， 


:配置 通常 有 一 个 或 多 个 接口 ; 


fe LBS — PS PO 


Be LUE EAT EE NINA e 


这 种 层次 化 配置 信息 在 设备 中 通过 一 组 标准 的 擅 述 符 来 朱 述 ， 如 下 所 示 。 


设备 描述 符 : 关于 设备 的 通用 信息 ， 如 供应 商 ID、 产 品 ID 和 修订 ID， 支 持 的 设备 类 、 子 类 和 适用 的 
协议 以 及 默认 端点 的 最 大 包 大 小 等 。 在 Linux 内 核 中 ，USB 设 备用 usb_ device 结构 体 来 描述 ，USB 设 备 描述 
符 定 义 为 usb device descriptor 结 构 体 ， 位 于 include/uapi/linux/usb/ch9.h 文 件 中 ， 如 代码 清单 16.1 所 示 。 


代码 清单 16.1 usb device descriptor 结 构 体 


lstrucb usb device descripror 1 


2 Us bhength; /* 描述 符 长 度 * / 

3 | u8 bDescriptorType; /* 描述 符 类 型 编号 */ 

4 

5 lel6 bcdUSB; /* USB 版 本 号 */ 

6 __u8 bDeviceClass; /* USB 分 配 的 设备 类 code */ 
7 |. u8 bDeviceSubClass; /* USB 分 配 的 子 类 code */ 

8 ug bDeviceProtocol; /* USB 分 配 的 协议 Coae */ 

9 | u8 bMaxPacketSize0; /* endpoint0 最 大 包 大 小 */ 
10 | lel6 idVendor; /* 厂商 编号 */ 
ale _ Hele SdProdsGts /* 产品 编号 */ 
12 |  lel6 bcdDevice; /* 设备 出 厂 编号 */ 
13 = u8 iManufacturer; /* 描述 厂商 字符 串 的 索引 */ 
14 | u8 iProduct; /* 描述 产品 字符 串 的 索引 */ 
15 = u8 iSerialNumber; /* 描述 设备 序列 号 字符 串 的 索引 */ 
16 = u8 bNumConfigurations;/* 可 能 的 配置 数量 */ 
17) | attribute ((packed)); 


配置 摘 述 符 : 此 配置 中 的 接口 数 、 文 持 的 挂 起 和 恢复 能 力 以 及 功率 要 求 。USB 配 置 在 内 核 中 使 用 
usb host config 结 构 体 摘 述 ， 而 USB 配 置 指 述 符 定 义 为 结构 体 usb_config_ descriptor， 如 代码 清单 16.2 所 


不 。 
代码 清单 16.2 usb config descriptor 结 构 体 


Lö cruco WD Config USSCLTIUOLOR | 


3 | u8 bLength; /* 描述 符 长 度 */ 

4 | u8 bDescriptorType; / x 描述 符 类 型 编号 */ 

S| 

6 |. lel6 wTotalLength; /* 配置 所 返回 的 所 有 数据 的 大 小 * / 

7 = u8 bNumInterfaces; /* 配置 所 支持 的 接口 数 */ 

8 . us. bContigurationvalue; /* Set Configuration 命 令 需要 的 参数 值 */ 
9 Ue XCOnfiguratron; /* 描述 该 配置 的 字符 串 的 索引 值 */ 
10 | u8 bmAttributes; /* 供电 模式 的 选择 */ 
213 | u8 bMaxPower; /* 设备 从 总 线 提取 的 最 大 电流 */ 
12} attribute ((packed)); 


-接口 摘 述 从 : 接口 类 、 子 类 和 适用 的 协议 ， 接 口 备 用 配置 的 数目 和 端点 数目 。USB 接 口 在 内 核 中 使 
用 usb interface 续 构 体 描述 ， 而 USB 接 口 摘 述 符 定 义 为 结构 体 usb_interface_ descriptor, "4f V diri 816.3 Er 


不 。 
代码 清单 16.3 usb interface descriptor 结 构 体 


lStruct USD xnterrace descriptor 1 


3 — muB. bhength; /* 描述 符 长 度 */ 

4 | u8 bDescriptorType; /* 描述 符 类 型 */ 

5 

6 = u8 bInterfaceNumber; /* 接口 的 编号 */ 

2 = u8 bAlternateSetting; /* 备用 的 接口 描述 符 编号 */ 

8 | u8 bNumEndpoints; /* 该 接口 使 用 的 端点 数 ， 不 包括 端点 0 */ 
9 u8 bInterfaceClass; /* Rar */ 
10 | u8 bInterfaceSubClass; /* ATAN */ 





11 = u8 biInterfaceProtocol; /* 接口 所 遵循 的 协议 */ 
12 | u8 iInterface; /* 描述 该 接口 的 字符 串 索引 值 */ 
13} attribute ((packed)); 

M He Aye OW 、 | 

Jump ATH AF: 端点 地 址 、 方 同和 类型， 


文 持 的 最 大 包 大 小 ， 如 果 是 中 断 类 型 的 端点 则 还 包括 轮 询 频 


A, fELinuxNt% F, USBm usb host endpoint 结 构 体 来 摘 述 ， 而 USB 闪 点 摘 述 符 定 义 为 


usb endpoint descriptor 结 构 体 ， 如 代码 清单 16.4 所 示 。 


代码 清单 16.4 usb endpoint descriptorZi T4] 








l Struct uso endpoint descriptor 4 

3 = u8 bLength; /* 描述 符 长 度 */ 

4 | u8 bDescriptorType; /* 描述 符 类 型 */ 

5 = u8 bEndpointAddress; /* 端点 地 址 ， 0~3 位 是 端点 号 ， 第 7 位 是 方向 (0 为 输出 , 1 为 输入 ) */ 
6 |. u8 bmAttributes; /* 端点 属性 : bit[0O:1] 的 值 为 00 表 示 控 制 ， 为 0 工 表示 同步 ， 

/* 为 02 表 示 批 量 ， 为 03 表 示 中 断 */ 

7 | lel6 wMaxPacketSize; /* 本 端点 接收 或 发 送 的 最 大 信息 包 的 大 小 * / 

8 = u8 biInterval; /* 轮 询 数据 传送 端点 的 时 间 间 隔 * / 

9 /* 对 于 批量 传送 的 端点 以 及 控制 传送 的 端点 ， 此 域 忽略 */ 
10 /* 对 于 同步 传送 的 端点 ， 此 域 必须 为 * / 
11 /* 对 于 中 断 传送 的 端点 ， 此 域 值 的 范围 为 1~255 */ 
12 uS DRetresh; 
M: u8 bSynchAddress; 
14} attribute ((packed)); 


字符 串 描述 符 ， 在 其 他 描述 符 中 会 为 某 些 字段 提供 字符 串 索 引 ， 它 们 可 被 用 来 检索 描述 性 字符 串 ， 


可 以 以 多 种 语言 形式 提供 。 
usb string descriptor fA, "Vidi 816.5 Bro. 


代码 清单 16.$ usb string descriptor 结 构 体 


LStrüct usb String descriptor 4 


3 | u8 bLength; /* 描述 符 长 度 */ 

4 | u8 bDescriptorType; /* 描述 符 类 型 */ 

S 

6 lel6 wData[1]; /* 以 UTEF=16LE 编 码 */ 


yy atribute ((packed)); 


字符 串 描述 符 是 可 选 的 ， 有 的 设备 有 ， 有 的 设备 没有 ， 字 符 串 描 述 符 对 应 于 


例如 ， 笔 者 在 PC 上 插入 一 个 SanDisk U 盘 后 ， 通 过 lsusb 命 令 得 到 与 这 个 U 盘 相关 的 摘 述 符 ， 从 中 可 以 
显示 这 个 U 盘 包含 了 一 个 设备 插 述 从 、 一 个 配 首 插 述 从 、 一 个 接口 手 述 从 、 批 量 输入 和 批量 输出 两 个 响 反 


搬 述 全。 呈现 出 来 的 信息 内 容 直 接 对 应 于 usb_device descriptor. usb config descriptor. 


usb interface descriptor. usb endpoint descriptor. usb string descriptor 结 构 体 ， 如 下 所 示 : 


Bus 001 Device 004: 
Device Descriptor: 


ID DololoL SanDisk Corp. 


bLength 18 

bDescriptorType 1 

DOdUSB 2.00 

bDeviceClass 0 Interface 
bDeviceSubClass O 

bDeviceProtocol O 

bMaxPacketSize0 64 

idVendor 0x079lL Sandisk Corp: 
idProduct Üxol5lI 

bcdDevice 0.10 

iManufacturer l SanDisk Corporation 
iProduct 2 Cruzer Micro 

iSerial 3 20060877500A1LBE1FDEL 
bNumConfigurations 1 


Configuratron Descriptor; 


bLength 9 


bDescriptorType 2 
wTotalLength og 
bNumInterfaces d 
bConfigurationValue 1 
LCOMELGUra tL 9 
bmAttributes 0x80 
MaxPower 200mA 
Interface Descriptor: 
bLength 9 
bDescriptorType 4 
bInterfaceNumber 9 
bAlternateSetting 9 
bNumEndpoints z 
bInterfaceClass 8 Mass Storage 
bInterfaceSubClass O ICT 
bInterfaceProtocol 3.0. BULK (ZLIB 
ilnterface 9 
Endpoint Descriptor: 
bLength f 
bDescriptorType J 
bEndpointAddress OOL . EP LTN 
bmAttributes 2 
Transfer Type Bulk 
Synch Type none 
wMaxPacketSize x 
bInterval 9 
Endpoint Descriptor: 
bLength 7 
bDescriptorType 5 
bEndpointAddress OROL. EP X. QUI 
bmAttributes 2 
Transfer Type Bulk 
oynch Type none 
wMaxPacketSize ze 
bInterval 1 


Language IDs: (length=4) 
0409 English (US) 


16.2 USBEAL Hill Zs UI zJJ 


16.2.1 USB XJ Lj: Hill 28 3 2/] A] EIS £s 4 


USB 主 机 控制 器 有 这 些 规格 : OHCI (Open Host Controller Interface) ~ UHCI (Universal Host 
Controller Interface) ~ EHCI (Enhanced Host Controller Interface) 和 xHCI (eXtensible Host Controller 
Interface) 。OHCI 驱 动 程序 用 来 为 非 PC 系 统 上 以 及 市 有 SiIS 和 ALi 心 厂 组 的 PC 主板 上 的 USB 心 厂 提 供 文 
持 。UHCI 驱 动 程序 多 用 来 为 大 多 数 其 他 PC 主板 〈 包 括 Intel 和 Via) 上 的 USB 必 请 提供 文 持 。EHCI 由 USB 
2.0 规 范 所 提出 ， 它 兼容 于 OHCI 和 UHCI。 由 于 UHCI 的 人 硬件 线路 比 OHCI 人 简单 ， 所 以 成 本 较 低 ， 但 需要 较 复 
杂 的 驱动 程序 ，CPU 负 蓓 稍 重 。xHCI， 即 可 扩展 的 主机 控制 器 接口 是 Intel 公 司 开发 的 一 个 USB 主 机 控制 器 
接口 ， 它 目前 主要 是 面 同 USB 3.0 的 ， 同 时 它 也 支持 USB 2.0 及 以 下 的 设备 。 


1. 主 机 控制 禹 驱动 


在 Linux 内 核 中 ， 用 usb hcd 结 构 体 描述 USB 主 机 控制 器 驱动 ， 它 包含 USB 主 机 控制 器 的 “家 务 ” 信 息 、 
便 件 资源 、 状 态 接 述 和 用 于 操作 主机 控制 器 的 he driver 等 ， 其 定义 如 代码 消 蛙 16.6 所 示 。 


代码 清单 16.6”usb hecd 结 构 体 


oeuet uso hed 4 


2 struct usb. bus self; /* hcd is-a bus */ 

3 struct. kref kref; /* reference counter */ 

4 

5 const char *product desc; /* procucce/vendor string */ 
6 JE speed; /* Speed for this roothub. 
7 * May be different from 

8 ^ hod-^driver--rlags & HCD MASK 

9 i 

10 char irq descr[24]; /* driver + bus f */ 

1d 

L2 Struct tiner 41390 rh Cimer; |" drives rooct-nub polling */ 
13 Struct urb "Status urb; /* the current status urb */ 
14#ifdef CONfiG PM 

1:5 Struct work struct wakeup work; /* for remote wakeup */ 
1l6#endif 

17 

18 conse. Strücb he driver "driver /* hw-specific hooks */ 

19 
20 SEE Usb: phy “sib: pmys 
21 SUtruct phy “Diy? 
22 
23 unsigned long Lilacs; 
24 
bias. 
26 
2 /* The HC driver's private data is stored at the end of 
28 * this StÉtUCture, 
29 E7 

30 unoigned Long hed. priv] 0 

31 |J :attribpute X ((aligned(sizeof(so4)))); 

32} 


usb_hed2 #4) P 28 1847 I he_driverk RJ A EH, CELE RAAH PERE EOD LP til as M T EC 
B[^hw-specific hooks”, exe X Vds 8.16.7 AT AN 


代码 清单 16.7 he driver 结 构 体 


人 


const char *descriptrion; p*cUebhcocreucd'"* ebd XJ 
const char *product desc; = wroduct/wendor string YY 
size t hcd priv size; /* Size of private data */ 


fe GC. qisnades- os 
lrdgreturn C Lr. (Seruce usb nod +hed) ¢ 


9 rnt flags; 
11 Ix Cal ied to nit HCb- and: root hub. */ 
1:2 re (ese), (Seruce “usb ned. shes 


E INE ASt Arer CSC IOE usb hod Ned) 


15 /* cleanly make HCD stop writing memory and doing I/O */ 
16 VOLO: (AGCO) (struct. usb hod Sied)? 


18 /* shutdown HCD */ 
19 VOId (“shicdown) (Struct usb. Deeds 


20 

2l /* return current frame number */ 

22 Ent (ger Trane number)» (Struct “usb. hcd Dod) 

2 

24 > manage. 1/0 requests; device state */ 

25 inp (Ourb-engueue) (GUrust usb hed. “led; 

20 Strüct urb “ur, psp mem tlago)? 

Zi inc. (uro Gequeie, (Struct “web. ned “led, 

28 struct Urb *urby mt status) s 

29 es 

30 /* Allocate endpoint resources and add them to a new schedule */ 
341. Ent (add CnC pointe) (Struc. Sb hed 5. Shruce USD device 7 

D Strucrc-cusb- lost endporNE ©) 7 

9 /* Drop an endpoint from a new schedule */ 

34 Iipp.qX9dropehdpornt isurücc usb Woo ,Stent Usb “device ~, 

39 SCrucb usb ost endpoint *) 3 

36 

SN int (check Doan Lue) (Leu Heb god ^t. truce usb device. Ty 

38 VOId (*reselt.bsnodwidGel)i0SLPuet usb Dod —cstrucco usb AEV LOS: jy 
39 /* Returns the hardware-chosen device address */ 

40 Ent (address device) oC ruce Usb Cd Ty Sh usb device udev) 
41 —— 

42 inb ("Seb cusb2 hw- HpmisUcrucc usb Nod: €. Struct usb deV eS X. pmo 
43 /* USB 3.0 Link Power Management */ 

44 /* Returns the USB3 hub-encoded value for the U1/U2 timeout. */ 
45 int. (enable U po LP CIMEL IASCC uso hog €, 

46 SULUCE. US devroe Ty enim spo snk Stare Slate), 

47] me (reuseable: uspo bpnobmeour)  SPEUuQu des cog. 

48 SLÉUCLOHSD IMeVIOO Tye Sru asp» ++i Stace: State) > 

49 Ente (bind raw port numbers) (Struct. usb HOO 5 ANC: 

50 IA Call tor power On/off the port at -necessary Ty 

aL Ine (pore powert»isuruck usb-hed *hed, dnt porcum, DooL enable); 
22]; 


fELinuxA rp, EHU Pe AK GJ SEHCD: 


StLUCL, Usb. hed. usb ersate nod (Const sbruct Me gOgrbver “driver, 
SULUCE -device "dev; char “bus. mame) 7 


Un PERLE HH RBS IN A 4% BRHCD: 


IDC Usb add Nea (struck usb ned “hed, 
unsigned int irqnum, unsigned long irgflags); 
word Usb gemoveghocd6scrueosp. eg ARCA) 


第 25 行 的 urb enqueue O 函数 非常 关键 ， 实 际 上 ， 上 层 通 过 usb submit urb O 提交 1 个 USB 请 求 后 ， 
该 函数 调用 usb hcd submit urb O ， 并 最 终 调 用 至 usb hcd 的 driver 成 员 Che driver 类 型 ) 的 


urb enqueue () PEZ. 


2.EHCI 主 机 控制 如 驱动 


EHCI HCD4K24)% T HCDJ3EGJJ HSE PI, 


usb_hcd 结 构 体 的 私有 数据 (hed priv) ， 


所 示 。 
代码 清单 16.8  ehci hcd 结 构 体 


Letruct enci Nou 4 


2 /* timing support */ 

> enum ehci hrtimer event 

4 unsigned enabled hrtimer events; 
E kome T 

6 struct hrtimer hrtimer; 

7 

8 int Poo POLL Counc; 

J Int ASS poll -count; 

10 int died poll count; 

11 — 

12 /* general schedule support */ 
13 bool Scanning: 1; 

14 DOO need resocanil; 

URS bool intr unlznkzngsel; 
16 bool Las in progressi 
17 DOOL async Unlinking: 1; 
ike bool shutdowni Ll; 

19 SLELUCE euo gn "gh Scam Next, 
20 
21 /* async schedule support */ 
2d struct enci uh *asvnc; 
LAS SLIUcL eno wn sumy? 
24 struct list head async unlink; 
25 struct dist Nead async idle 
Z0 unsigned async unlink cycle; 
2j unsigned async Count; 
2o 
29 /* periodic schedule support */ 
30#define DEFAULT I TDPS 1024 
3 unsigned perlodlc. 617267 
32 -MO 人 
29 dma addr t periodic dma; 
34 Struct Jase heed Int? gh Jue; 
DD unsigned L thresh; 
36 “as 
9 /* bandwidth usage */ 


38#define EHCI BANDWIDTH SIZE 64 
39%#define EHCI BANDWIDTH FRAMES 


它 定 义 了 一 个 ehci hed tii, iE ATS 8 16.6xE XH 
这 个 结构 体 的 定义 位 于 drivers/usb/host/ehci.h 中 ， 如 代码 清早 16.8 


j/* one per controller */ 
next hrtimer event; 


hr timeouts [EHCI HRTIMER NUM EVENTS]; 


/* For AMD quirk use */ 


I* async activity Count. */ 


/* some HCs can do less */ 


/* hw periodic table */ 


/* uframes HC might cache */ 


(EHCI BANDWIDTH SIZE >> 3) 


40 ue bandwidth[EHCI BANDWIDTH SIZE]; 

41 /* us allocated per uframe */ 
42 u8 tt budget[EHCI BANDWIDTH SIZE]; 

43 /* us budgeted per uframe */ 
44 Scruce Last Nead xt 110b? 

45 

46 /* platform-specific data -- must come last */ 

47 unsigned long priv[0] | aligned(sizeof(s64)); 
48}; 


FAO RAR ACES SzXWusb hcd 和 ehci hcd 的 相互 转换 : 


SO 


Struct USD. ugd ^encr Lo med (Const Struot 


从 usb_hcd 得 到 ehci hcd 只 征 取得 “私有 ”数据 ， 而 从 ehci hedfi$usb hcd 则 是 通过 


构 体 成 员 获 得 结构 体 指针 。 


(Strucb usb Nod “hea):; 


olor hed *ono2l); 


过 container of O MZ 


AEH UN T e CH) JS EHCLEEA2DLUSS mas 


StaciC nnb enorlr 2a cl ec ruc. uso hog De) 


如 下 函数 分 别 用 于 开启、 停止 及 复位 EHCI 控 制 器 : 


ee 
Satro: VOI ener- STOP QCStrucc web modo Ded 
Stacie Ent ebox eset. UCSLEUOLt Enor hed "eher. 


上 述 函 数 在 drivers/usb/host/ehci-hcd.c 文 件 中 被 填充 给 了 一 个 he driver 结 构 体 的 generic 的 实例 


ehci hc driver. 


Stato “Const Struce he Graver ence HO driver = 4 
.reset = encor -setup; 
.Start = Snert Sum, 
.Stop - enor -Stop 
.shutdown = ehci shutdown, 


drivers/usb/host/ehci-hcd.c 实 现 了 绝 大 多 数 ECHI 主 机 驱动 的 工作 ， 有 具体 的 EHCI 实 例 简 单 地 调用 


二 人 
esi 


和 初始 化 he driver 即 可 ， 这 个 函数 会 被 generic 的 ehci he driver 实 例 复制 给 每 个 具体 压 层 驱动 的 实例 ， 当 然 抵 
层 驱 动 可 以 通过 第 2 个 参数 ， 即 ehci_ driver overrides 蛙 写 中 间 层 的 reset() ~ port power O 这 2 个 函数 ， 男 
外 也 可 以 填充 一 些 额 外 的 私有 数据 ， 这 一 点 从 代码 清单 16.9ehci init driver O 的 实现 中 可 以 看 出 。 


代码 清单 16.9 ”ehei init driver 的 实现 


下 


2 Const SULUCE Shei driver Overrides ~Over) 

ex 

4 COBY the generi able to dr end then apply che Overrides. *7 
5 *ury = ehon Ne driver; 

6 

7 if (over) { 

8 OUV=7 CO: Priv 126 TS OVer-exLrIa priv S126; 
9 if (over->reset) 
10 drv->reset = over->reset; 
LI LL (OVer=>pOoOrt power) 
12 üsvesport power = over- port power; 
13 ) 


16.2.2 ”实例 ，Chipidea USB 主 机 驱动 


Chipidea 的 USB IP 在 舱 入 式 系 统 中 应 用 比较 三 沁 ， 它 的 驱动 位 于 drivers/usb/chipidea/ 目 录 下 。 


当 Chipidea USB 驱 动 的 内 核 代码 drivers/usb/chipidea/core.c 中 的 ci hdrc probe O 被 执行 后 〈 即 一 个 
platform _ device 与 ci hdrc driver 这 个 platform _ driver 匹配 上 了 ) ， 它 会 调用 drivers/usb/chipidea/host.c 中 的 
ci hdrc host init () 尔 数 ， 访 函数 完成 hce_driver 的 初始 化 并 赋值 一 系列 与 Chipidea 平 台 相 天 的 私有 数据 ， 
如 代码 清单 16.10 所 示 。 


代码 清单 16.10 — Chipidea USB host 驱 动 初始 化 


line ccr Wore host suitistruoct or hadra vel) 


A 

E Su.ruct Qr role driver rdr? 

4 

3 if ( !hw read (Gi, CAP DCCPARAMS, DCCPARAMS HC) ) 

6 return -ENXIO; 

7 

8 Bdrv = devin. kEzslloc(ol- dev, S&sZeort(struct OL role driver), CEP KERNEL); 
9 Lt. (lrdary) 

10 return -ENOMEM; 

11 

12 pudrv-»start = BOSCO Stari 

13 rtudrv-e»sLtop = host Stop; 

14 rdry-or£9 = host rg? 

1 rdrv-»name — "host"; 

16 cl--roles[oL ROLE HOST] = rdrv; 

17 

18 ENCI anit Oriver (ec. ehol ho driver, Lenci OL Overrides); 
19 
20 return 03 


16.3 USB 设 备 驱 动 


16.3.1 USB 设 备 驱 动 的 整体 结构 


这 里 所 说 的 USB 设 备 驱 动 指 的 是 从 主机 角度 来 看 ， 怎 样 访问 被 插入 的 USB 设 备 ， 而 不 是 指 USB 设 备 内 


部 本 里 运行 的 固件 程序 。Linux 系 统 实现 了 几 类 通 


WER « 


:通信 设备 类 。 

HID 〈 人 机 接口 ) 设备 类 。 
显 不 设备 类 。 

海量 存储 设备 类 。 

电源 设备 类 。 

打印 设备 类 。 
ELEDE EN 


一 般 的 通用 Linux 设 备 〈 如 U 盘 
编写 的 古 特定 厂商 、 


. USBintn, USB HER 
特定 心 厂 的 驱动 ， 而 且 往 往 也 可 以 参考 已 经 在 内 核 中 提供 的 驱动 模板 。 


首 用 的 USB 设 备 张 动 〈 也 称 客户 张 动 ) ， 划 分 为 如 下 几 个 


等 ) 都 不 需要 工程 师 再 编写 驱动 ， 而 工程 师 需 要 


Linux 内 核 为 各 闫 USB 议 备 分配 了 相应 的 设备 号 ， 如 ACM USB 调 制 解 调 大 的 主 设备 号 为 166〈 黑 认 设 


4 % /dev/ttyACMn ) 


. USB4T EJJLIS] ERAS A180, KRESS 730-15 (默认 设备 名 /dewlpn) 、 


USB ¥ O 


IN ERE S A188 CRAKE 4/dev/ttyUSBn) 等 ， 评 见 http:/www.lanana.org/ 网 站 的 放 备 列表 。 


fEdebugfs Fh, 


$ sudo cat /sys/kernel/debug/usb/devices 

T: Bus=02 Lev=00 Prnt=00 Port=00 Cnt=00 Dev#= 
B Alloc= 2/900 us ( 0%), #Int= 1, #Iso= 0 
D Ver- 1.10 Cls-09(hub ) 
P Vendor-1d6b ProdID=0001 Rev- 4.00 

os -Manufacturer-Lrinux 4.0,0-—r:01 ohcl bed 
of. Product-OHCL PCI Host Controller 

S SerialNumber-0000:00:06.0 

C:* #Ifs= 1 Cfg#= 1 Atr=e0 MxPwr- OmA 
I:* If#= 0 Alt= 0 #EPs= 1 Cls-09(hub ) 
E Ad=81 (I) Atr=03(Int.) MxPS- 2 Ivl=255ms... 
T Bus=01 Lev=01 Prnt=01 Port=00 Cnt=01 Dev#= 
D Ver- 2.10 Cls=00(>ifc ) 
P Vendor-0930 ProdID=6545 Rev= 1.00 


1 Spd-12 


2 Spd-480 
Sub-00 Prot-00 MxPS=64 #Cfgs= 1 


/sys/kernel/debug/usb/devices 包 全 了 USB 的 设备 信息 ， 在 Ubuntu 上 插入 一 个 U 盘 后 ， 我 们 
在 /sys/kernel/debug/usb/devices 中 可 看 到 类 似 信 息 。 


MxCh= 8 


Sub=00 Prot=00 MxPS=64 #Cfgs= 1 


Sub=00 Prot=00 Driver=hub 


MxCh= 0 


Manufacturer=Kingston 

Product=DataTraveler 3.0 

SerialNumber-60A44C3FAE22EEA0797900F7 

#Ifs= 1 Cfg#= 1 Atr-80 MxPwr-498mA 

Ifs 0 Alt- 0 #EPs= 2 Cls=08(stor.) Sub=06 Prot=50 Driver=usb-storage 
Ad=81 (I) Atr=02 (Bulk) MxPS= 512 Ivl=0Oms 

Ad=02 (O) Atr=02 (Bulk) MxPS= 512 Ivl1-0ms 


+ 


H E aC). UO? US 03 
+ 


通过 分 析 上 述 记 录 信 息 ， 可 以 得 到 系统 中 USB 的 完整 信息 。USBView Chttp://www.kroah.com/linux- 
usb) 是 一 个 图 形 化 的 GTK 工 具 ， 可 以 显示 USB 信 息 。 


此 外 ， 在 sys 氏 文件 系统 中 ， 同 梓 包 售 了 USB 相 关 信 息 的 描述 ， 但 只 限于 接口 级 别 。USB 设 备 和 USB 接 
口 在 sys 氏 中 均 表 示 为 单独 的 USB 设 备 ， 其 目录 命名 规则 如 下 : 


根 集 线 右 一 集线器 端口 号 《一 集线器 端口 号 ~- 。. . ) :配置 .接口 


下 和 面 给 出 一 个 /sys/bus/usb 目 录 下 的 树 形 结构 实例 ， 其 中 的 多 数 文 件 都 是 锁定 到 /sys/devices 
及 /sys/drivers 中 相应 文件 的 链接 。 


.I— devices| I— 1-0:1.0 => ../../../devices/pci0000:00/0000:00:0b.0/usb1/1-0:1.0| I— 1-1 -> ../../../devices/ 


正如 tty_driver、i2c driver 等 ， 在 Linux 内 核 中 ， 使 用 usb_driver 结 构 体 描述 一 个 USB 设 备 驱 动 ， 
usb _driver 结 构 体 的 定义 如 代码 清单 16.11 所 示 。 


代码 清单 16.11 usb _ driver 结构 体 


lStruoct Usp: driver | 


2 const char *name-; 

3 

4 inr (*DEODO) (EPUCE Usb Interlace "55$, 

9 COMSsG Struct Usb device 1d 71d)? 

6 

J void ("di Connect] Celruce uso anlerrace: InI)? 
8 

9 Lut (“unlocked 20001] (Struct. Usb Interlace “inti, Unsigned: Tnt code, 
i) võid *burs 
11 

12 int (suspend) (struct usb interrace *intf, pn message t message); 
1.3 Inr (^resune) (SCIUCC USD. LINOSrTEace. "IDEE 

14 Int. (* reser. resume)(struact usb rinteriace “~intL); 
15 

16 和 

i Ine. ("DOS reser) (SC Cruct Usb Im er ace ALCI]? 
18 

19 Const. Struct USD device rd 7rd cable; 
20 
2 Struct usb dynlds dynids; 
Ze struct usbdrv wrap drvwrap; 
23 unsigned int no dynamic id:1; 
24 unsigned int supports autosuspend:l; 
29 unsigned int disable hub initiated lpm:1; 
206 unsrgued nt Sore unbindrl; 
21} 


fESR E Ht USB ee ERIN, -ESEÉMLIVASEBAHJLfEZEprobe ©) Mdisconnect O PAB, EURIA Wr A 
图 数 ， 它 们 分 别 在 设备 被 插入 和 拔 出 的 时 候 调 用 ， 用 于 初始 化 和 释放 软 便 件 资 源 。 对 usb driver 的 注册 和 
注销 可 通过 下 和 面 两 个 函数 完成 : 


int usb regurscer(istrucL. usb Craver “new driver) 
vold usb. deregisterd(struot usb driver “driver; 


usb driver 结 构 体 中 的 id table 成 员 描 述 了 这 个 USB 驱 动 所 支持 的 USB 设 备 列表 ， 它 指向 一 个 
usb device id 数组 ，usb_device id 结构 体 包 含有 USB 设 备 的 制造 商 ID、 产 品 ID、 产 品 版 本 、 设 备 类 、 接 口 
关 等 信息 及 其 要 匹配 标志 成 员 match flags《〈 标 明 要 与 哪些 成 员 兄 配 ， 包 售 DEV_ LO. DEV HI. 
DEV CLASS, DEV SUBCLASS, DEV PROTOCOL. INT CLASS, INT SUBCLASS, 
INT PROTOCOL) 。 可 以 借助 下 面 一 组 宏 来 生成 usb device id 结构 体 的 实例 : 


USB DEVICE (vendor, product) 


该 宏 根 据 制 造 商 ID 和 产品 ID 生成 一 个 usb_device id 结构 体 的 实例 ， 在 数组 中 增加 该 元 素 将 意味 着 该 驱 
动 可 支 持 与 制造 商 ID、 产 品 卫 匹配 的 设备 。 


USB DEVICE VER(vendor, product, lo, hi) 


AAR GR Hil ePID. P'SBID. A a HIA ME AT ae KLE HX usb device id 结构 体 的 实例 ， 在 数 
2H PLE ATU aS ok A A n] Sc EAS BAS AID. P^ pe IDL BORIHo-hi?6 E PY AAS EY t 6 e 


USB DEVICE INFO(class, subclass, protocol) 
该 宏 用 于 创建 一 个 匹配 设备 指定 类 型 的 usb_device id 结构 体 实 例 。 

USB INTERFACE INFO(class, subclass, protocol) 
该 宏 用 于 创建 一 个 匹配 接口 指定 类 型 的 usb_device id 结构 体 实 例 。 
代码 清单 16.12 所 示 为 两 个 用 于 描述 示 USB 张 动 文 持 的 USB 设 备 的 usb_device id 结构 体 数 组 实例 。 
代码 清单 16.12 usb device id 结构 体 数组 实例 


l/* 本 驱动 支持 的 USB 设 备 列表 */ 
2 


3/* sil */ 
dotati BLPUCL usb device id zd table PF] e 4 
3 {| USB DEVICE (VENDOR ID, PRODUCT ID) +; 


6 Ug, 

7); 

8MODULE DEVICE TABLE (usb, id table); 

9 
10/* 实例 2 */ 
LLStHLIC p pruci usb device rd xd table. [Ll] = i1 
L2 t wtQVendor = Ox LODZ, match Tlags = USB DEVICE, ID MATCH VENDOR; Jy 
13 { }, 
14}; 
15MODULE DEVICE TABLE (usb, id table); 


HUSB URM PFET Be BR JS ERU DEI HJusb device id£iT4 A Print BU d BY, XXI 
驱动 程序 的 probe O 函数 束 被 执行 (如 果 这 个 USB 驱 动 是 个 模块 的 话 ， 相 关 的 .ko 还 应 被 Linux 上 自动 加 


S). IPR A El ote ea, USBI lot {Tdisconnect ©) 也 数 来 啊 应 这 个 动作 。 


上 述 usb_driver 结 构 体 中 的 函数 是 USB 设 备 驱 动 中 与 USB 相 关 的 部 分 ， 而 USB 只 是 一 个 总 线 ，USB 设 备 
驱动 真正 的 主体 工作 仍然 是 USB 设 备 本 丑 所 属 类 型 的 驱动 ， 如 字符 设备 、tty 设 备 、 块 设备 、 输 入 设备 等 。 
财 此 USB 设 备 驱 动 包 合 其 作为 忌 线 上 挂 接 设备 的 驱动 和 本 里 所 属 设 备 类 型 的 驱动 两 部 分 。 


与 platform driver. i2c driver 类 似 ，usb driver 起 到 了 “ 罕 线 ”的 作用 ， 即 在 probe() 里 注册 相应 的 字 
符 、tty 等 设备 ， 在 disconnect O 注销 相应 的 字符 、tty 等 设备 ， 而 原先 对 设备 的 注册 和 注销 一 般 直 接 发 生 
在 模块 加 载 和 番 载 图 数 中 。 


尽管 USB 本 喘 所 属 设备 张 动 的 结构 与 其 挂 不 挂 在 USB 总 线 上 没什么 关系 ， 但 是 据 此 在 访问 方式 上 却 有 
很 大 的 变化 ， 例 如 ， 对 于 USB 接 口 的 字符 设备 而 言 ， 尽 管 仍 然 挟 write〈) 、read〈) ~ ioctl O HER 
数 ， 但 是 在 这 些 图 数 中 ， 员 罕 始 终 的 是 称 为 URB 的 USB 请 求 块 。 


如 图 16.3 所 示 ， 在 这 株 树 里 ， 我 们 把 树 根 比 作 主 机 控制 苹 ， 树 时 比 作 有 基体 的 USB 设 备 ， 树 干 和 酌 权 束 
征 USB 总 线 。 酌 时 本 映 与 树 术 通 过 usb_driver 连 接 ， 而 树叶 本 吴 的 驱动 〈 谈 与 、 控 制 ) 则 需要 通过 其 例 叶 
设备 本 身 所 属 交 设备 张 动 来 完成 。 枫 根 和 树叶 之 间 的 “通信 ? 依 菲 在 树干 和 树 术 里 " 沉 消 ?的 URB 来 完成 。 
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图 16.3 USB 设备 驱动 结构 


由 此 可 见 ，usb_driver 本 里 只 十 有 找到 USB 设 备 、 官 理 USB 设 备 连 接 和 靳 开 的 作用 ， 也 就 是 说 ， 它 是 
公司 入 口 处 的 “打卡 机 ”， 可 以 获得 员工 (USB 设备 ) 的 上 /下 班 情况 。 树 时 和 员工 一 样 ， 可 以 是 研 友 工程 
师 也 可 以 是 销售 工程 师 ， 而 作为 USB 设 备 的 树叶 可 以 是 字符 树叶 、 网 络 树叶 或 英 树 时， 因此 必须 实现 相应 
设备 类 的 驱动 。 


163.2 USB 请 求 块 


1.urb 结 构 体 


USB 请 求 块 (USB Request Block, URB) 是 USB 设 备 驱动 中 用 来 描述 与 USB 设 备 通信 所 用 的 基本 载体 
和 核心 数据 结构 ， 非 党 类 似 于 网 络 设 备 驱 动 中 的 sk_buff 结 构 体 。 


代码 清单 16.13 URB 结 构 体 


lotrucr urb i 


2 er 

3 /* public: documented fields in the urb that can be used by drivers */ 
4 Seruce dist head Ue IIS. /* list head for use by the urb's 

5 * current owner */ 

6 "T 

7 SEDUCE usb host endpoint "ep; /* (internal) pointer to endpoint */ 

8 unsigned int pipe; j/* (an) pipe information */ 

9 Unsigned int. stream id; /* (in) stream ID */ 

10 int status; /* (return) non-I50 status */ 

11 unsigned Int transrer flags; ~= (I0) URB- SHORT NOT QE | aa 

12 void *transfer buffer; /* (in) associated data buffer */ 

13 dma addr t transfer dma; /* (in) dma addr for Lranster Duillier * / 
14 Struct ‘Scatterlist *~sq; /* (in) scatter gather buffer list */ 
s int num mapped sgs; /* (internal) mapped sg entries */ 

16 IHE HUM $0597 /* (in) number of entries in the sg list */ 
1-7 u32 transfer buffer length; [* (ian) date butter Length */ 

18 üoa actual, Length? /* (return) actual transfer length */ 
19 unsigned Char 7ce up packer; /* (rn) setup packet (control only) *7 
20 dma addr t setup dma; /* (in) dma addr for setup packet */ 
2l int start frame; /* (modify) Start trame (ISO) */ 
22 int number of packets; /* (rn) number of ISO packets */ 
2:5 int interval; /* (modify) transfer interval 
24 T XINBALSOD wy 
25 int error count; /* (return) number of ISO errors */ 
26 void *context; [*- (in) Contest Tor completion */ 
2 usb complete t complete; /* (1n) completion routine. */ 
28 Struct usb 180 packer OeSOPIpbOE 290 frame desolo; 
29 /* (in) ISO ONLY */ 

30} 

2.URB 处 理 流 程 


USB 设 备 中 的 每 个 冰 氮 都 处 理 一 个 URB 队 列 ， 在 队列 家 清空 之 前 ， 一 个 URB 的 典型 生命 周期 如 下 。 
1) 被 一 个 USB 设 备 驱动 创建 。 


创建 URB 结 构 体 的 函数 为 : 


Struct Urb *usb alloc UO(LNE XSO0 packets, gip t mem tleags),; 


1SO _packets 是 这 个 URB 应 当 包 含 的 等 时 数据 包 的 数 A, XPZJOXezR AG ESN BE EL mem flags# 2 
是 分 配 内 存 的 标志 ， 和 kmalloc() PRANHIZ ACN RBEAS MIA]. WR AOKI, 12 KRUR IE] —~“SURB 
结构 体 指 针 ， 人 否则 返回 0。 


结构 体 在 驱动 中 不 宜 静 态 创 建 ， 因 为 这 可 能 破坏 USB 核 心 给 URB 使 用 的 引用 计数 方法 。 


usb alloc urb ©) HJR ER 260773: 


MOLA USD = ree UIOS CTC Url UTD 


该 函数 用 于 释放 由 usb alloc urb ©) 分 配 的 URB 结 构 体 。 
2) 初始 化 ， 科 安排 给 一 个 特定 USB 设 备 的 特定 病 氮 。 
对 于 中 断 URB， 使 用 usb fill int urb © 函数 来 初始 化 URB， 如 下 所 示 : 


VOLO: dep TELL Int Ur (Sottouct UID Curb.:-truo usb device *dgdev, 
unsrgned nu pipe, vore rrano er Durffer, 

inb utter lengch, usb conplece-c 'oomplete, 

vorid *60nbext, nt Qnterval)s; 


URB 参 数 指 癌 要 被 初始 化 的 URB 的 指针 ;，dev 指 问 这 个 URB 要 被 发 送 到 的 USB 设 备 ; pipe 是 这 个 URB 
要 锌 发 送 到 的 USB 设 备 的 特定 闹 点 ; transfer_buffer 是 指 问 友 送 数据 或 接收 数据 的 缓冲 区 的 指针 ， 和 URB 一 
样 ， 它 也 不 能 是 静态 绥 冲 区 ， 必 须 使 用 kmalloc() 来 分 配 ; buffer lengthzétransfer buffer 指 针 所 指 回 缓冲 
区 的 大 小 ，complete 指 针 指 同 当 这 个 URB 完 成 时 航 调 用 的 完成 处 理 图 数 ; context 是 完成 处 理 函 数 的 "上 下 
X”; interval 是 这 个 URB 应 当 被 调度 的 间隔 。 


上 述 函 数 参 数 中 的 pipe 使 用 usb sndintpipe () 或 usb rcvintpipe © 创建 。 
对 于 批量 URB， 使 用 usb fill bulk urb O 函数 来 初始 化 ， 如 下 所 示 : 


VOLO. AeH el bulk urb (struc urb “Urbs Surüuct-ubsD-dewrce “dev; 
UNsLgneo: ITNE ‘pape, Wold. Eran lier Dutrer, 

Lob: Duper length; usb Compleue. complete, 

vord *context); 


除了 没有 对 应 于 调度 间隔 的 interval 参 数 以 外 ， 该 函数 的 参数 和 usb fill int urb O 函数 的 参数 含义 相 


上 述 函 数 参 数 中 的 pipe 使 用 usb sndbulkpipe () 或 者 usb revbulkpipe O 函数 来 创建 。 
对 于 控制 URB， 使 用 usb fill control urb O 函数 来 初始 化 ， 如 下 所 示 : 


人 
Unsigned. Inv pipe, Unsigned char *setup packet, 

vord am Dufr ery mt DUnLer Lengthy 

usb conplete t Complete; Vord ""OONtext). 


除了 增加 了 新 的 setup packet 参 数 以 外 ， 访 函数 的 参数 和 usb fill bulk urb O) 函数 的 参数 含义 相同 。 
Setup_packet 参 数 指 回 即将 逢 发 达到 妆 点 的 放置 数据 包 


上 述 函 数 参 数 中 的 pipe 使 用 usb sndctrlpipe ©) 或 usb rcvictrlpipe () 函数 来 创建 。 


等 时 URB 设 有 像 中 断 、 控 制 和 批量 URB 的 初始 化 函数 usb fill iso urb O ， 我 们 只 能 手动 对 它 初 始 
化 ， 而 后 才能 提交 给 USB 核 心 。 代 码 清 单 16.14 给 出 了 初始 化 等 时 URB 的 例子 ， 它 来 自 


drivers/media/usb/uvc/uvc video.c 文 件 。 


代码 清单 16.14 初始 化 等 时 URB 


it POr “ds =O nae ie UVC URB or dara) 1 

2 Ure UD aLloc-uUurbinpacReUtso, fp Tlags); 

3 if (urb == NULL) { 

4 üUyc uninit VIO (stream, d); 

5 return -ENOMEM; 

6 j 

7 

8 urb->dev = stream->dev->udev; 

9 urb->context = stream; 

EO üurbesprpe = usb-revrsocpripetstream--dev--udev, 
EL ep->desc.bEndpointAddress) ; 
12#ifndef CONfiG DMA NONCOHERENT 

9 urb->transfer flags = URB ISO ASAP | URB NO TRANSFER DMA MAP; 
14 urb-siransrcer dma = tream > urb dma liiy 
15#else 

16 Urb=2erenster i lage = URD 150 ASAP 

17f$endif 

18 urb->interval = ep-»desc.bInterval; 

19 urbe vransfer Dübrer = Srecan re. burter ia; 
2.) urb-»coNplete = uvye-vidoeo complete; 
zd urbe-onmumber Of packers = npackets; 
22 urg-stransrer DULI er Length = S276; 
223 
24 tor (T = UE. *mupmgockets se 4 
VES Urov 0150 Lrame descblLlsoriser = a). 2 S297 
20 Utero pLramecdesct]ls.lengcn -—perze- 
21 } 
28 
20 stream->urb[i] = urb; 
Su } 


3) USB Fr BBN GEC 23 USBI Ù o 


在 完成 第 1) . 2) 步 的 创建 和 初始 化 URB 后 ，URB 便 可 以 提交 给 USB 核 心 了， 可 通过 
usb submit urb O 函数 来 完成 ， 如 下 所 示 : 


TD Submit Ur OCOC UCE ED. Ur Dy. Jr Mem: a lags); 


URB 参 数 是 指 同 URB 的 指针 ，mem flags 参 数 与 传递 给 kmalloc O BABAK MAA], EAP AA 
USB 核 心 如 何在 此 时 分 配 内 存 绥 冲 区 。 


在 提交 URB 到 USB 极 心 后 ， 直 到 完成 函数 被 调用 之 前 ， 不 要 访问 URB 中 的 任何 成 员 。 


usb submit urb O 在 原子 上 和 下文 和 进程 上 下 文中 都 可 以 航 调 用 ，mem flags 变 量 需 根据 调用 环境 进行 
相应 的 设置 ， 如 下 所 示 。 


‘GFP ATOMIC: 在 中 断 处 理 函 数 、 展 半 部 、tasklet、 定 时 需 处 理 函 数 以 及 URB 完 成 函数 中 ， 在 调用 
ERA BEBE Br BE BUT EJ Ae 25 X z/ T current-5statefZ AL 7JJETASK. RUNNING 时 ， 应 使 用 此 标志 。 


'GFP. NOIO: 在 存储 设备 的 卖 WO 和 蚀 误 处 理 路 任 中 ， 应 使 用 此 标志 ; 


-GFP KERNEL: 如 果 没 有 任何 理由 使 用 GFP ATOMIC#IGFP NOIO， 就 使 用 GFP KERNEL. 


"usb submit urb ©) 调用 成 功 ， 即 URB 的 控制 权 被 移交 给 USB 核 心 ， 该 函数 返回 0;， 人 否则， 返回 钳 


Mm | 


TR o 

4) Té SC HHUSB ECC aE USB ALE Hill as KS 

5) 被 USB 主 机 控制 右 处 理 ， 进 行 一 次 到 USB 设 备 的 传送 

第 4) ~5) 步 由 USB 核 心 和 主机 控制 血 完 成 ， 不 受 USB 设 备 驱 动 的 控制 |。 
6) 当 URB 完 成 ，USB 主 机 控制 器 驱动 通知 USB 设 备 驱 动 。 


在 如 下 3 种 情况 下 ，URB 将 结束 ，URB 完 成 回调 函数 将 被 调用 《完成 回调 是 通过 usb fill xxx urb 的 参 
数 传 入 的 ) 。 在 完成 回调 中 ， 我 们 通常 要 进行 urb->status 的 判断 。 


.URB 被 成 功 发 送 给 设备 ， 并 且 设 备 返 回 正确 的 人 确认。 如 果 urb->status 为 0， 意 味 看 对 于 一 个 输出 
URB， 数 据 委 成 功 肥 达 ; 对 于 一 个 输入 URB， 请 求 的 数据 个 成 功 收 到 。 


如果 发 这 数据 到 设备 或 从 设备 接收 数据 时 发 生 了 错误 ，urb->status 将 记录 错误 值 。 


'URB 被 从 USB 核 心 “ 去 除 连 接 ”， 这 发 生 在 驱动 通过 usb unlink urb 〈) 或 usb kill urb © 函数 取消 或 
URB 虽 已 提交 而 USB 设 备 被 拔 出 的 情况 下 。 


usb unlink urb () 和 usb kill urb ©) 这 两 个 函数 用 于 取消 已 提交 的 URB， 其 参数 为 要 说 取 消 的 URB 
指针 。usb_unlink urb O 是 异步 的 ， 搞 定 后 对 应 的 完成 回调 会 航 调 用 ;而 usb_kill urb O TII E 
URB 的 生命 周期 并 等 竺 这 一 行为 ， 它 通 瘟 在 设备 的 disconnect ©) 图 数 中 家 调用 。 


当 URB 和 生命 结束 时 《处 理 完 成 或 被 解除 链接 ) ， 在 URB 的 完成 回调 中 通过 URB 结 构 体 的 status 成 员 可 
以 获知 其 原因 ， 如 0 表示 传输 成 功 ，-ENOENT 表 示人 做 usb_kill urb © 攻 死 ，-ECONNRESET 表 示人 补 
usb unlink urb © 杀 死 ，-EPROTO 表 示 传 输 中 发 生 了 bitstuff 错 误 或 者 人 硬件 未 能 及 时 收 到 啊 应 数据 包 
ENODEV 表 示 USB 设 备 已 被 移 除 ，-EXDEV 表 示 等 时 传输 仅 完 成 了 一 部 分 等 。 


对 以 上 URB 的 处 理 步 又 进行 一 个 总 结 ， 图 16.4 给 出 了 一 个 URB 的 完整 处 理 流程 ， 虚 线 框 的 
usb unlink urb () 和 usb kill urb〈》〉 并 不 一 定 会 发 生 ， 它 们 只 是 在 URB 正 在 被 USB 核 心 和 主机 控制 右 处 
理 时 又 被 驱动 程序 取消 的 情况 下 才 发 生 。 


usb alloc urb() 


Pr: usb fill int urb() 
AE: usb fill bulk urb() 
^W: usb fill control urb() 
等 时 : 手工 初始 化 iso urb 


一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


usb kill urb() 
usb unlink urb() 


urb->complete () 





16.4 ”URB 人 处 理 流 程 


3. 人 简单 的 批量 与 控制 URB 


有 时 USB 张 动 程 序 只 生 从 USB 设 备 上 接收 或 同 USB 设 备 友 达 一 些 简 单 的 数据 ， 这 时 候 ， 没 有 必要 将 


URB 人 创建、 初始 化 、 所 区 、 完 成 处 理 的 整个 流程 走 一通 ， 而 可 以 使 用 两 个 更 简单 的 畏 歼 ， 如 下 所 示 。 


(1) usb bulk msg (©) 


usb bulk msg O 函数 创建 一 个 USB 批 量 URB 并 将 它 发 这 到 符 定 设备 ， 这 个 函数 是 同步 的 ， 它 一 直 等 


待 URB 完 成 后 才 返 回 。usb bulk msg © 函数 的 原型 为 : 


int usb bulk msgistruot usb device *“ush.-dev, Unsigned xut pipe 
VOI “data, anc Len, ant "actual length, 


int timeout); 


usb dev 人 参数 为 批量 消息 要 发 送 的 USB 设 备 的 指针 ，pipe 为 批量 消息 要 发 送 到 的 USB 设 备 的 端点 ，data 


参数 为 指 癌 要 发 送 或 接收 的 数据 绥 冲 区 的 指针 ，len 参 数 为 data 参 数 所 指 同 的 缓冲 区 的 长 度 ， 
关 或 接收 的 字 币 数 ，timeout 是 及 过 超 时， 以 ji 蕾 es 为 单位 ，0 意 味 痢 永远 等 竺 。 


actual length 


用 于 返回 实际 发 送 
如 果 函 数 调用 成 功 ， 返 回 0;， 和 否则 ， 返 回 1 个 负 的 错误 值 。 


(2) usb control msg ©) 因数 


usb control msg © 国 数 与 usb bulk msg O MAA, AWE PEE Ya AIK A ZAR USB Fe RNS 


而 不 是 批量 信息 的 能 力 ， 该 函数 的 原型 为 : 


nnt usb control msgistruct Usb device “dev, Unsigned, InG pipe, V0 request, 
üo xequesttype, . ulo value, . ulo index, void “daca, 


ulo Bize; ant timeogtj); 


dev 指 癌 控 制 消息 发 往 的 USB 设 备 ，pipe 是 控制 消息 要 发 往 的 USB 设 备 的 端点 ，request 是 这 个 控制 消息 


的 USB 请 求 值 ，requesttype 是 这 个 控制 消 恩 的 USB 请 求 类 型 ，value 古 这 个 控制 消 恩 的 USB 消 恩 值 ，index 是 


这 个 控制 消 姑 的 USB 消 姑 索 引 值 ，data 指 癌 要 有 友 迷 或 接收 的 数据 组 冲 区 ，size 是 data 参 数 所 指 问 的 缓冲 区 的 
大 小 ，timeout 十 肥 壕 超时， 以 旱 秒 为 蛙 位 ，0 意 味 着 水 远 等 行 。 


参数 request、trequesttype、value 和 index 与 USB 规 范 中 定义 的 USB 探 制 消 息 直 接 对 应 。 
如 琳 函数 调用 成 功 ， 诠 图 数 返 回 肥 送 到 设备 或 从 设备 接收 到 的 字 节 数 ; 人 否则， 返回 一 个 负 的 错误 值 。 


对 usb bulk msg () 和 usb_control msg O 函数 的 使 用 要 特别 慎重 ， 由 于 它们 是 同步 的 ， 因 此 不 能 在 
中 了 汤 上 上 下文 和 持 有 目 旋 锁 的 情况 下 使 用 。 而 且 ， 访 函数 也 不 能 被 任何 其 他 函数 取消 ， 因 此 ， 务 必要 使 得 驱 
动 程序 的 disconnect C) 函数 治 握 足够 的 信息 ， 以 判断 和 等 每 该 调用 的 结 来 。 


16.3.3. PRI AUT FF EL BL 

在 USB 设 备 驱 动 usb_driver 结 构 体 的 probe〈) 函数 中 ， 应 该 完成 如 下 工作 。 

-探测 设备 的 端点 地 址 、 绥 冲 区 大 小 ， 初 始 化 任何 可 能 用 于 控制 USB 设 备 的 数据 结构 。 

-把 已 初始 化 的 数据 结构 的 指针 保存 到 接口 设备 中 。 

usb set intfdata () 函数 可 以 设置 usb interface 的 私有 数据 ， 这 个 函数 的 原型 为 ; 
EE RR 1 2. 5 Rh RR 

这 个 函数 的 “ 反 函 数 ” 用 于 得 到 usb_interface 的 私有 数据 ， 其 原型 为 : 
eR 

注册 USB 设 备 。 

如 果 是 简单 的 字符 设备 ， 则 可 调用 usb_register dev O ， 这 个 函数 的 原型 为 : 


Int USO register dev(struct usb Interlace *inti, 
struct usb class driver olaca driver); 


上 述 函 数 中 的 第 二 个 参数 为 usb_class_driver 结 构 体 ， 这 个 结构 体 的 定义 如 代码 清单 16.1$ 所 示 。 
代码 清单 16.1$ usb class driver 结构 体 


lsScruerL usb Class driver qd 


2 char *name; 

3 Char “(*Cdevnode) (struct device *dev, wmode © mode); 
4 Const. SLEUOL Tile Operations “Lops; 

9 int minor base; 


onl a 


对 于 字符 设备 而 言 ，usb_class_driver 结 构 体 的 fops 成 员 中 的 write © . read ©) ~ ioctl O 等 图 数 的 地 
位 完全 等 同 于 本 书 第 6 草 中 的 他 e_operations 成 员 函 数 。 


如 末 十 其 他 类 型 的 设备 ， 如 tty 设 备 ， 则 调用 对 应 设备 的 注册 函数 。 
在 USB 设 备 驱 动 usb_driver 结 构 体 的 probe() 函数 中 ， 应 该 完成 如 下 工作 。 
释放 所 有 为 设备 分 配 的 痪 源 。 


设置 接口 设备 的 数据 指针 为 NULL。 


注销 USB 设 备 。 
对 于 字符 设备 ， 可 以 直接 调用 usb register dev O PEZ eS AD. n PEE: 


VOLO SD “dereq ster devistruocc usb Aneer race Iti 
SULucL usp class dover clams OPriver); 


对 于 其 他 英 型 的 设备 ， 如 tty 设 备 ， 则 调用 对 应 设备 的 注销 了 郴 数 。 


163.4 USB 骨 加 程序 


Linux 内 核 源 代 码 中 的 drivervusb/usb-skeleton.c 文 件 为 我 们 提供 了 一 个 最 基础 的 USB 张 动 程 序 ， 即 USB 
骨架 程序 ， 它 可 被 看 作 一 个 最 徐 单 的 USB 设 备 驱动 实例 。 尽 管 具 体 的 USB 设 备 驱动 干 震 万 别 ， 但 其 骨 避 则 
Fae AN TS LR © 


B74 4 USB HR EY Husb_driverza WE x, UNS 816.16Pmzs « 


Wists $216.16 USB kee Hyusb driverZà $4 f 


EEC Struct Usb driver Skel driver = 4 
2 .name = "skeleton", 

S .probe - skel probe, 

4 .disconnect = Skel caSsconnecr,; 
5 .Suspend = skel suspend, 

6 .resume = skel resume, 

7 spre reset = skol pre reset; 
8 «DOS, ToSet = skel post reset, 
E sid table = skel table; 
10 sSUPPOrts autosuspendg = 1, 
11} 


从 上 述 代码 第 9 行 可 以 看 出 ， 它 所 文 持 的 USB 设 备 的 列表 数组 为 skel table[], HE CI VH 16.17 
BIA 


代码 清单 16.17 USB HERE Mid table 


上 SEC“SCEUCE usb device ad kel. table [I] 9 4 
2 { USB DEVICE (USB SKEL VENDOR ID, USB SKEL PRODUCT ID) }, 
2 { } /* Terminating entry */ 


4A}; 
5MODULE DEVICE TABLE(usb, skel table); 


对 上 述 usb_driver 的 证 册 和 注销 及 生 在 USB 骨 以 程序 的 模块 加 载 与 彼 载 图 数 肉 ， 其 分 别 调 用 了 
usb register () 和 usb deregister O ， 不 过 这 个 注册 和 注销 的 代码 却 不 用 与 出 来 ， 和 直接 用 一 个 快捷 宏 
module usb _driver 即 可 ， 如 代码 清单 16.18 所 示 。 


代码 清单 16.18 USB 骨 架 程 序 的 模块 加 载 


LOLSgLic peruci Uso Cryer Shel driver = 4 
2 .name = "skeleton"; 

3 .probe = skel probe, 

4 .disconnect = skel disconnect, 
9 .Suspend - Skel suspend, 

6 .resume = skel resume, 

7 pre Se = Skel pre reset, 
8 „POOE Sesetc = Skel post reset, 
9 «Ld. Galle: = skel table, 
10 sSUPPOrTS dutosuspend = 1; 
11} 
1:2 


lmodule usb driver(skel driver); 


在 usb driver 的 probe () 成 员 函 数 中 ， 会 根据 usb interface 的 成 员 寻 找 第 一 个 批量 输入 和 输出 端点 ， 将 


闹 点 地 址 、 绥 冲 区 等 信息 存 入 为 USB 骨 和 架 程 序 定义 的 usb_skel 结 构 体 中 ， 并 将 usb_skel 实 例 的 指针 传 入 
usb set intfdata() 中 以 作为 USB 接 口 的 私有 数据 ， 最 后 ， 它 会 注册 USB 设 备 ， 如 代码 清单 16.19 所 示 。 


代码 清单 16.19 USB 骨架 程序 的 probe ©) 函数 


lotari c- Int Skel prOve(seruct. Usb: Anberrace "LNDePPDQOSy 


2 COUSU. SULUGL USO dev Lee: sd) Ed) 
34 

4 Struct usb Skel #dey; 

2 Bopacc USD: host In eraco ~A are desc, 

6 SCrUCt VSO <endpoins doscrsiptor "endpornuct, 
J S126. t DUPLer Size, 

8 ine. des 

9 int retval = -ENOMEM; 
10 
TX /* allocate memory for our device state and initialize it */ 
12 dew = Rzalloc(srzeor( dev); “Grr KERNEL) 3 
L3 


14 krer rnit(sdev-skref); 
15 sema. nsttedeveoclrimrst semp WRITES: IN PLIGHT); 


16 mutex init(&dev-»io mutex); 

TA Spin: Lock: xurzbp(sdev-c err lock), 

18 Imt usb .-anchor(sdeve-ssuDmituedc); 

19 init wartqueue Head(&dev--bulk in wart); 

20 

A devs udev = Wop get Qey Irne aCe co usbdev(iormperiaseg)s 
22 dev->interface = interface; 

2 

24 /* set up the endpoint information */ 

29 | *€ Use only the tirse bulk-in and bulk-out endpoints: */ 
2:0 lace dest c LUCO rL ICES CUr ALL SOLCON 

Zi LO (in =; U7: da thace dese] desc. DNUMENGDpOLN eS? ERLA d 
28 endpolinbe-wIrI2gce desc = endpoint rI donC 

29 

30 lr (Ldeve-bDulk im endporncAddrT «e 

34. usb endpoint is bulk. sn(endpolnt)y) 4 

32 /* we found a bulk xn endpoint */ 

93 buffer size = usb endpoint maxp(endpoint); 

34 devespDILkE in S126 = DULCIS Sizes 

29 dev=>bulk :1 -endpol neAddr:= endpornt--DbEndporntAddress; 
36 deve=-7 bulk in butter = kmalloc(buiter size, ‘GRP KERNEL); 
S TE 

38 deve-cpulk Im urb = usb alloc: urb(0,. (GEP KERNEL. 
39 

40 } 

41 

42 it (ldev-2Dulk out endpointAddr -.&& 

43 Usb: endpelnt 5 Duk our (encdporme).) A 

44 I*' we found. a bulk out endpoint *7 

45 dev-^Dulk out -endporntAddr = endporint--»bEndpolintAddress; 
46 ) 

47 } 

48 

49 

50 /* save our data pointer in this interface device */ 

91 Usb Set Ant datat Intec aco; ev) 

OZ 

oe /* we can register the device now, as it is ready */ 

54 rebval = ues. register devirsnterrdce; eskel class); 

OD cd 

56 return 0; 

S 

58) 


usb_skel2a fJ As u] UA EZ — TRE BU ERAS, FRE CUTS 8.16.20 B T2 PEZ M VISIT BS 
备 星 号 定制 。 


代码 清单 16.20 ” ”USB 骨架 程序 的 自 定 义 数 据 结构 usb_skel 


lSstruot usb.SEe y 


2 struct usb device *udev; /* the usb device for this device */ 

2 Struct. usb LInberbtgce "InN Ler LACS, /* the interface for this device */ 

4 struct semaphore Limit sem; /* limiting the number of writes in progress */ 
9 SLtruct Usb anchor SubDHLtted; /* in case we need to retract our submissions */ 


6 Struct arb “hulk In urb; /* the urb to read data with */ 

7 unsigned char *bulk in buffer; /* the buffer to receive data */ 

8 size t bulk in size; [4 the stze ot the receive buffer *7 

9 size t bulk in filled; /* number of bytes in the buffer */ 
10 size t bulk in copied; /* already copied to user space */ 
T | u8 bulk in endpointAddr; A “ne address or the ‘bulk an endpornb */ 
12 U8 bulk out endpointAddr; Tx the, address ot the bulk out endpoint. */ 
dcs JE errors; /* the last request tanked */ 
14 bool ongoing read; /[* m read 1s Going on */ 
1559 spinlock t err TOCE; Js MOC Tor errors. t 
iE S struct krer kref; 
L7 struct mutex io mutex; /* synchronize I/O with disconnect */ 
18 wait queue head t pulk rin wart; * Eo wart for anr- Ongoing read: */ 
19]; 


USB 骨 架 程序 的 断 开 函数 会 完成 与 probe O 函数 相反 的 工作 ， 即 设置 接口 数据 为 NULL， 注 销 USB 设 
备 ， 如 代码 清单 16.21 上 所 示 。 


代码 清单 16.21 USB EP SiR Ay TF eR 


toetati VOrd Sker 01 sconnect (Struct Usb: Lgterprrace *inver race) 


23 

3 Struct usb Skel dev; 

4 int minor = interface-»minor; 

D 

6 dev = uSp gert rugcrdoata(i:nUterrace)s 

7 Usb SeL-intidacalincertiace, NULL; 

8 

9 A gave back our minor */ 
10 Usb derogi ter dev(inLertaoce, <skel class); 
LI 
T2 A prevent more 17/0- trom Starting ^ 
13 mutex Loockosoevecro mute 
14 dev->interface = NULL; 
to mutex unlock (&dev->1i0 mutex); 
16 
i usb kslrlr anchored Urbs (tdev submrtted); 
iS 

19 /* decrement our usage count */ 
20 kref pul (edev=7kret, skel delete); 
21 
2 dev intodfsergverrace--dev, "USB Skeletor yod now disconnected", minor); 
Zo} 


代码 清单 16.19 第 $4 行 usb register dev (interface, &skel class) 中 的 第 二 个 参数 包含 了 字符 设备 的 
file operations 结 构 体 指针 ， 而 这 个 结构 体 中 的 成 员 实 现 也 是 USB 字 符 设 备 的 另 一 个 组 成 成 分 。 人 代码 清单 
16.22 给 出 了 USB 上 骨架 程 序 的 字符 设备 文件 操作 file_ operations 结 构 体 的 定义 。 


代码 清单 16.22 ”USB 骨 以 程序 的 字符 设备 文件 操作 结构 体 


bota CIC Cone SLEPUCL ERIS Opera One okel TOPS = { 
2 .Owner = THIS MODULE; 

3 .read = skel read, 

4 .write = Skel- Wertes 

3 .OPDen = skel open, 

6 .release = Skol Telesse, 

1 .flush - skel flush, 

8 .llseek = noop- seek, 

2]; 


由 于 只 是 一 个 象征 性 的 骨架 程序 ，open O RRRA HS fH, "RdSusb driver 和 次 设备 号 
通过 usb find interface O 获得 USB 接 口 ， 之 后 通过 usb_get intfdata O 获得 接口 的 私有 数据 并 赋 子 file- 
>private data， 如 代码 清单 16.23 所 示 。 


代码 清单 16.23 USB 骨架 程序 的 字符 设备 open〈() 函数 


lstat 


IC AID Ske. Open (Struc mode “inode, PLIU file. tr ile) 
SLIHOL. Usbuskel Sev, 
STLUCe SD Eertoee ~imverlace; 
int subminor: 
int retval = 0; 
subminor = iminor(inode); 
Liver io —cusb Trd anm er aCe (SekeL drivery; Subminor).; 
dev = aoh get mrdgstairmnuerrace 
retval = USD: Subopm get 2Hterrgsceiunterrtacel. 
if (retval) 


goto exit; 


;* increment our Usage count for the. device =y 
kret get (ecdev=>krer]; 


eave Our OO ECE rn' the file's private. Sbprucbure- “7 
LLOSS pI LV aie aka 09V 


return retval; 


由 于 在 open O 函数 中 并 没有 申请 任何 软件 和 便 件 资产， 所 以 与 open O 图 数 对 应 的 release O K% 
不 用 进行 资源 的 释放 ， 而 只 需 进 行 减 少 在 open O 中 增加 的 引用 计数 等 工作 。 


接 下 来 要 分 析 的 是 读 号 孙 数 ， 前 面 已 经 近 人 到 ， 在 访问 USB 设 备 的 时 候 ， 员 穿 其 中 的 “中 枢 神 经”* 古 URB 


结构 体 。 


在 skel write © 函数 中 进行 的 关于 URB 的 操作 与 16.3.2 小 节 的 描述 完全 对 应 ， 即 进行 了 URB 的 分 配 
(调用 usb alloc urb O ) 、 初 始 化 (调用 usb fill bulk urb O ) 和 提交 《调用 usb submit urb © ) 的 
操作 ， 如 代码 清单 16.24 所 示 。 


代码 清单 16.24 USB 上 骨架 程 序 的 字符 设备 写 图 数 


lstat 


Le S676. kel WELGe(Struce bebe “Erle Const, chiar aser butter, 
Size cU Count; OSI 


SuUPUGL Usb: sk omy: 

int retval = 0; 

Struct: Uro uro = NULG? 

char *buf = NULL; 

S126; tU Writesi ze. = mantcount,. (size L)MAX “TRANSEER) ¢ 


der e-mRIleepDPLVate data; 


Spin. Oak- 1ro(edev=serr Lock) > 
retval = dev->errors; 


Spin. unlock: »rqiesdev-cerr lock); 


j* oreate dq urb, and as buffer for 1t, and copy the data to the urb */ 
Urb. USD -ALLOG rb 0 GEP LERNEL)S 


bur = wish ablloccoherentidev-;udev, writesize;, GEB KERNEL; 
SUr DSe En er ma); 


LE (Copy 1rom User (bur, User buiter, writecuze)) + 
retval = -EFAULI; 


28 goto error; 


29 } 

30 

31 /* this lock makes sure we don't submit URBs to gone devices */ 
3 mutes loocktedeve-lo mutex); 

33 

34 

35 [* uwncbtreloize the urb properly */ 

36 usb tid bulk urbturb, dev--udev, 

24 usb sndbulkpipe(dev--udev,- dev-^bulk our endpoinvAddr), 
38 Düt. WELES er S keL wrie bulk ‘cal loack, uev 
39 urb->transfer flags |= URB NO TRANSFER DMA MAP; 

40 usb. anchor urb(urb,. deve»submrtted);. 

41 

42 /* send the data out the bulk port */ 

43 retval = usb ‘submit .urbD(urb, GEP KERNEL); 

44 mutex unlock (&dev->10 mutex) ; 

45 ES 

46 usb: Tree urb(urb); 

47 

48 return writesize; 

49 

50} 


在 与 函数 中 友 起 的 URB 结 束 后 ， 第 38 行 填 入 的 完成 函数 skel write bulk callback © 3X4 js], 


进行 urb->status 的 判断 ， 如 代码 清单 16.2$ 所 示 。 


代码 清单 16.2$ USB 上 骨架 程序 的 字符 设备 写 操作 完成 函数 


IStatlc vord Skel write Dulk callbackistruct urb Urp) 


zt 

3 S Ceu Usb Skel “dev, 

4 

5 dev = urb->context; 

6 

7 7/* Sync/asyne unlink faults aren't errors *7 

8 if (urb->status) { 

9 if (!'(urb->status == -ENOENT | | 

10 urb->status == -ECONNRESET | | 

11 urb->status == -ESHUTDOWN)) 

LZ dev enrisdevecinterftace- dev, 

1 "Ss - nonzero write bulk status received: 
14 . Je. yx "EO oC 

Lo 

16 eprzn-Jlock(te«devescerr lock 

L4 dev->errors = urb->status; 

18 Spin unbLoock(sdeveserr Fok)? 

19 } 
20 
21 fo eee OU allocated (but ter 7 
22 USD Lreesoserent(urbDesdev,. uro transrer purrer Lengen, 
2. UrDecUIansler DuL ery urbe Lragnseker maj 
24 upiedev-olimrzt sem); 


Zan"; 


> 


ul 


DE 


16.3.5 实例 ， USB 键 盘 驱 动 


在 Linux 系 统 中 ， 键 盘 被 认定 为 标准 输入 设备 ， 对 于 一 个 USB 键 盘 而 言 ， 其 驱动 主要 由 两 部 分 组 成 : 
usb driver 的 成 员 函 数 以 及 输入 设备 张 动 的 nput _event 获 取 和 报告 。 


在 USB 键 盘 设 备 驱 动 的 檬 块 加 载 和 凶 载 函数 中 ， 将 分 列 注 册 和 注销 对 应 于 USB 键 盘 的 usb_driver 结 构 
体 usb kbd driver， 人 代码 清 单 16.26 所 示 为 模块 加 载 与 翻 载 图 数 以 及 usb_driver 结 构 体 的 定义 。 


代码 清单 16.26 USB 键 往 议 备 驰 动 的 模 氛 加载 与 翻 载 图 数 以 及 usb_ driver 结构 体 


Iotatio Struc’ Wb device zd usb: kod ad Cable Dp =4 

2 { USB INTERFACE INFO(USB INTERFACE CLASS HID, USB INTERFACE SUBCLASS BOOT, 
3 USB INTERFACE PROTOCOL KEYBOARD) }, 

4 { } /* TermTuasting entry */ 
2j; 

6 

7MODULE DEVICE TABLE (usb, usb kbd id table); 

8 

tatie ELIPUOL USD driver usb kod driver e 4 
10 .name = "usbkbd", 
11 probe = usb kbd probe, 
12 .disconnect - usb kbd disconnect, 
13 QUO Pable = usb kbd id table, 
14] 
15 


lomodule usb driver(usb kbd driver); 


fEusb driverl']probe O 函数 中 ， 将 进行 输入 设备 的 初始 化 和 注册 ，USB 键 盘 要 使 用 的 中 断 URB 和 控 
制 URB 的 初始 化 ， 并 设置 接口 的 私有 数据 ， 如 代码 清单 16.27 所 示 。 


代码 清单 16.27 USBS* a IKA probe ©) 函数 


上 EUR Int usb kbo probe (Struct. Usb Aneerrace “altace, 


2 Const Struc’ usb device rd ~id) 

Sl 

4 SLruoct Usb device “dev = i1nteriace Lo usbdeyvi1tace)-; 
2 struct usb BoSL Tneridce In Eride; 

6 struct usb endpoint descriptor *endpornt; 

7 struct usb kpd “kba; 

8 Struct input dev *Linput dev; 

9 要 

10 Interface >= LLCO OUr ALL ee CLL? 

11 

12 endpoint = &interface->endpoint[0].desc; 

1.2 

14 Pipe = usb rcovintprpe(uev, endpoint--pEndbposnDnLAddress)y 
ils. maxp = usb maxpacket(dev, pipe, usb pipeout(pipe)); 
16 

17 kod. = Kzalloc(sizeof(struct usb kbd); GFP KERNEL) 7 
Le 下 

19 
20 if (usb kbd alloc mem(dev, kbd) ) 
2l goto fail2; 
22 
23 kbd->usbdev = dev; 
24 kbde»0ev = INDUL -dev; 
29 T 
26 usb make path(dev, kbd->phys, sizeof(kbd-»phys)); 
2] stricat(kbd-Sphys; "/input0", sizeof (kbd=>phys)); 
28 
29 input dev->name = kbd->name; 
30 input devephys = kbd=>phys; 
EAT usb to input id(dev, &input dev->1d); 
22 LHpub dev- dev: Darentb = 61 tace=->dev; 
33 


34 input set drvdata(input dev, kbd); 


Bo 
95 
37 
39 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
Sd 
2 
J9 
54 
JG 
J6 
F 
58 
59 
60 
Gl 
62 
029 


input dev-»evbit[0] = BIT MASK(EV KEY) 
BIT MASK(EV REP); 


| BIT MASK(EV LED) | 


input dev--event = usb kbd event; 


input dev-^open = usb. kbd open; 
input dey=>c Lose: = usb KDO closes 


usb ill anit ursD(kDd-ebEg, dev, pape, 

kbd->new, (maxp > 8 9 X Maxp)} 

Usb: kba- Trd; bd endpornut-brInrterv-l), 
kbd-25rxrq-»transrter dma = KOJA -iew dma; 
kbd->irq->transfer flags |= URB NO TRANSFER DMA MAP; 


usb fall GombcPOl unb (kKod=> led, dev; ToD- rdo rl pipe devy. D3 
(void: .wy “kbd=>er, kbd-sledgsS; T13 
usb kD ed, kod) 3 
kod-e-led--transrer dma = Kbd=-7leds. dme; 
kbd->led->transfer flags |= URB NO TRANSFER DMA MAP; 


error = 1mpput requester device | kha dew 
if (error) 
Gove: Tarl; 


his 本 = = 
device set wakeup enable(sdev--^dev, 1J; 
return 0; 


fEusb driver 的 断 开 函数 中 ， 将 设置 接口 私有 数据 为 NULL、 
码 清单 16.28 所 示 。 


代码 清单 16.28 USB 键 盘 设 备 张 动 的 断 开 函数 


LocdgtlcworQ Usb Koc. UrsconnecLuustrucu usp aneeriace AMINLI) 


Z1 


SCrUCt USO ‘Kod * kbd = ush- get Titi data 


(intf); 


usb sec 1ntbdata (Inti; NULL); 
if (kbd) { 


USD IULE “ark (KO Se 
Input umreorster -devace (kod=>dev);7 
usb. Kal. urbi(okbde-led); 
usb: bd Lree memirnterrace- to. usbdev(rmtti); 
kfree (kbd); 


kbd) ; 


终止 已 提交 的 URB 并 注销 输入 设备 ， 如 代 


键盘 主要 依赖 于 中 断 传 输 模式 ， 在 键盘 中 断 URB 的 完成 函数 usb kbd irq〈) 中 (通过 代码 清单 16.27 
的 第 4$ 行 可 以 看 出 ) ， 将 会 通过 input report key O 报告 按键 事件 ， 通 过 input sync O 报告 同步 事件 ， 
如 代码 清单 16.29 所 示 。 


代码 清单 16.29 ”USB 键 礁 设 备 驱 动 的 中 断 URB 完 成 函数 


Pe baltic VoL SD RDO Ira Cret Xp 759) 


Z1 
3 


oo —-10» 01 4S 


for (i us 


E A DS ERF) 
input report key(kbd-»^dev, usb kbd keycode [1-4 224]; 
for (po ce mp use 3a 


if (kbd-»old[i]»3 && memscan(kbd->new + 2, 
ITI (usb: kod: kevoodelkede3colcrrT9 


kbd]? oid) [a6], 


(kbd->new[0] 


Se UN, he. AS 


6)==kbd->new + 8) { 


lnpub report key (kbd->dev,..usb..kKod: keycode | kbd=>old [i] 4.-0)7 


else 
人 
"Unknown key 
kbdesoldllrzrbs 


(scancode %#x) released.\n", 


18 if (kbd->new[i] > 3&&memscan(kbd->old + 2, kbd-»new[i], 6)==kbd->old + 8) { 
19 if (usb kbd keycode[kbd->new[1] ]) 

20 Lnput report key (kod=--dev, usb Kod keycode (kbd=snewl 2). 1y Lr; 

Zi: else 

27 hid. rnfo(urb--dev, 

23 "Unknown key (scancode $4x) pressed.\n", 

24 kbd-»new[i]); 

26 } 


28 input sync (kbd->dev) ; 


从 USB 键 盘 驱 动 的 例子 中 ， 我 们 进一步 看 到 了 usb_driver 本 身 只 是 起 一 个 挂 接 总 线 的 作用 ， 而 县 体 设 
备 类 型 的 驱动 仍然 是 工作 的 主体 ， 例 如 键盘 就 是 mput、USB 串 口 就 是 tty， 只 是 在 这 些 设备 底层 进行 便 件 访 
问 的 时 候 ， 调 用 的 都 是 与 URB 相 关 的 接口 ， 这 套 USB 核 心 层 API 一 一 URB 的 存在 使 我 们 无 须 关 心底 层 USB 
主机 控制 大 的 其 体 细 广 ， 因 此 ，USB 人 设备 驱动 也 变 得 与 平台 无 天 ， 同 样 的 驱动 可 应 用 于 不 同 的 SoC。 


16.4 USB UDC 与 Gadget 驱 动 


16.4.1 UDC 和 Gadget 驱 动 的 天 键 数 据 结 构 与 API 


这 里 的 USB 设 备 控制 器 (UDC)》 驱动 指 的 是 作为 其 他 USB 主 机 控制 器 外 设 的 USB 硬 件 设 备 上 底层 硬件 
控制 器 的 驱动 ， 该 硬件 和 驱动 负责 将 一 个 USB 设 备 依附 于 一 个 USB 主 机 控制 器 上 。 例 如 ， 当 某 运 行 Linux 
系统 的 手机 作为 PC 的 U 盘 时 ， 手 机 中 的 底层 USB 控 制 器 行使 USB 设 备 控制 器 的 功能 ， 这 时 候 运 行 在 底层 的 
是 UDC 驱动 ， 而 手机 要 成 为 U 盘 ， 在 UDC 驱动 之 上 仍然 需要 另外 一 个 驱动 ， 对 于 USB 大 容量 存储 器 而 言 ， 
这 个 驱动 为 File Storage 驱 动 ， 称 为 Function 驱 动 。 从 图 16.1 左 边 可 以 看 出 ，USB 设 备 驱 动 调用 USB 核 心 的 
API， 因 此 具体 驱动 与 SoC 无 关 ; 同样 ， 从 图 16.1 右 边 可 以 看 出 ，Function 驱 动 调用 通用 的 Gadget Function 
API， 因 此 具体 Function 驱 动 也 变 得 与 SoC 无 关 。 软 件 分 层 设计 的 好 处 再 一 次 得 到 了 深刻 的 体现 。 


UDCJKz/JfüFunctionJ z/J db. FA tZ HJdrivers/usb/gadget H se", Aldrivers/usb/gadget/udc F TRI HJ 
fsl mxc udc.c. omap udc.c. s3c2410 udc.cE X MA SoC FS EHJUDCJIUKZJ, rüdrivers/usb/gadget/function 
F H3&HJf serial.c. f mass storage.c. f rndis.c 等 文件 实现 了 一 些 Gadget 功 能 ， 重 要 的 Function 豫 动 如 下 所 


小。 


Ethernet over USB: 该 驱动 模拟 以 太 网 网 口 ， 它 支持 多 种 运行 方式 一 一 CDC Ethernet〈 实 现 标准 的 
Communications Device Class"Ethernet Model" 协 议 ) ~ CDC Subset 以 及 RNDIS (做 软 公 司 对 CDC Ethernet 的 
AP RSL I) 。 


File-Backed Storage Gadget: 最 第 见 的 U 盘 功能 实现 。 


Serial Gadget: 包括 Generic Serial 实 现 〈 只 需要 Bulk-in/Bulk-out 闹 点 +ep0) 和 CDC ACM 规 范 实 现 。 内 
核 源 代码 中 的 Documentation/usb/gadget serial.txt 文 档 讲 解 了 如 何 将 Serial Gadget 与 Windows 和 Linux 主 机 连 


mo m 


BE. 
Gadget MIDI: 2$9&ALSA MIDI H . 
USB Video Class Gadget 张 动 : ibLinux R AKANA — TS Z&EEHJUSBAT UA SR JS 


Jh. drivers/usb/gadget]i V 334 SW. f — GadgetX- fF AZ (GadgetFS) ， 可 以 将 Gadget API 接 口 暴 
露 给 应 用 层 ， 以 便 在 应 用 层 实 现 用 户 空 间 的 驱动 。 


在 USB 设 备 控制 器 驱动 中 ， 我 们 主要 关心 几 个 核心 的 数据 结构 ， 这 些 数据 结构 包括 描述 一 个 USB 设 备 
ye till as usb_ gadget. UDC#R/FEusb_gadget ops、 描 述 一 个 器 点 的 usb_ ep 以 及 摘 述 妆 点 操作 的 usb_ep_ops 结 
构 体 。UDC 驱 动 围绕 这 些 数 据 结构 及 其 成 员 函 数 而 展开 ， 代 码 清 单 16.30 列 出 了 这 些 天 键 的 数据 结构 ， 它 


们 都 定义 于 include/linux/usb/gadget.h 文 件 。 


代码 清单 16.30 ”UDC 了 驱动 的 关键 数据 结构 


IStruct- Usb gadget 1 


2 SOLUCE WOIEK-SEPUGD work; 

3 /* readonly to gadget driver ae 

4 CONSE *SELUCE uso Gadget: Ops "ODSS 

5 SULLUGE. Usb “ep *ep0; 

6 struct list head ep list; /* of usb ep */ 
7 enum ISD dev ice Speed speed; 

8 enum usb device speed max speed; 

9 enum. usb. device state State, 

139 Conse Char *name; 

LL struct device dev; 

12 unsigned out epnum; 

iS unsigned in epnum; 

14 

19 unsigned eg supported: 

1:6 unsigned ES OCs LZ 

1.7 unsigned No dq perrpherglsr 
io unsigned D- nnp-cendgpletil; 

UNS unsigned a hnp Support. Ly 
20 unsigned a- alt nip Supporct:l. 
2 unsigned qurrk eb out elrgned Sizer; 
22 unsigned is Selfpoweredsl; 
23]; 
24 


ZISCEUCT: USD ep, -4 


2.0 void *ürrver- data; 

21 

28 CONSD^q INE *name; 

29 Const SLINOL USD ep ops OOS} 

ou struct List head ep: lsc; 

31 unsigned maxpacket:16; 

22 unsigned maxpacket Jamies Lo; 

33 unsigned Max Sereams= 1.6; 

34 unsigned mules 2 

SO unsigned maxburst:5; 

36 us address; 

ow Conse o CrUCE Usb endpolnt descrrptor *desc; 

38 CONSUL SLrucb USD Ss ep comp descrzptor -*Comp ‘desc, 

S 

40 

dieters Oat Ops. 

42 TI (*gec frame) (Struce Usb. gadget *)7 

43 INE (“wakeup istruct usp gadget V 

44 int (^set sellpowered) (struct: usb gadget. 7y. Ine LS seltpowered); 
45 ITNE (AV DUS Sess LON) Xe9c5sust usDsgadgetr Ti TNE lS dobrve). 
46 THESE (^vbus draw) “Struct: usb gadget ^, unsigned may 

4] TIENE (spi Lip): (ASuruce. “usb gadget *, Int LS 0m 

48 Lit (^xopLl)d4sStsucc usb. gadget y 

49 unsigned code, unsigned long param); 

50 void ( "gel COuUrIg Paramo) (Struet wb ded coni ig Params =) 
Dd IX ("udc Start) (Struct Web gadget *, 


5.2 SeEruce Usb Gadget, driver, «9 


53 TE (^udc. STOPI (SerUucE usb gadget 7257 

24]; 

DOSULEUCT usb sep OPS 4 

56 Ic (^ensple (Se ruce usb: xp “ep, 

9. GODnSC SLLUCE Usb endpoint descriptor desci; 

58 int. (disable) (Seruce usb: ep: ep); 

99 

60 SULucCe Usk: TeGguese “(alloc Tregues ctr XSbPucb TD es “ep, 
61 gtp t ofp flags); 

G2 VOI ("Eres request) (Sthuce tb ep ep; SUIUOC sb: Tregues 56e] 
63 

64 ine (Gueuse {Struct Usb ep eps SubUCC USD reguest “reg, 
65 gip- t grip LlagsJ); 

66 int (^dequeue) (struct usb ep "ep; struct usb. request *reg); 
67 

68 Ine sev hal). qStrqcuasb ep “Sp, Gnu. value); 

69 LI. Met wedge) TSUIUCL Usb Sp ED) 

70 

ripe Mic. (Siro G CACTUS) “Struc: USD Gp "ep. 

AP Vom (Pio ol pStEUGD sb Gp Ae) 7 

73]; 


TERAKHJUDCIRSJrB, ii BAT usb gadgeti fiA in iusb ep, ScJkusb gadgetfJusb gadget ops 并 实 


Him usb ep ops. SüXusb _ request。 这 些 事情 都 搞定 后 ， 驶 可 以 广 册 一 个 UDC， 和 它 是 通过 
usb add gadget udc () API 来 进行 的 ， 其 原型 为 : 


Int usb add gadget ude(struce device "parent, Struct Usb gadget gadget); 


在 注册 UDC 之 前 ， 我 们 需要 先 把 usb_gadget 这 个 结构 体 类 的 ep list, Blin ABERAT, HATU 
usb_gadget 的 usb_gadget ops 以 及 每 个 病 点 的 usb_gadget ops. 


而 GadgetH 的 Function 这 边 ， 则 需要 日 己 填 人 充 usb interface descriptor. usb endpoint descriptor， 合 成 一 些 
usb descriptor header， 并 实现 usb_function 结 构 体 的 成 员 函 数 ，usb_fponction 结 构 体 定义 于 
include/linux/usb/composite.h 中 ， 其 形式 如 代码 清 时 16.31 所 示 。 


代码 清单 16.31 usb function 结 构 体 


Lop5sscb Use Lune LOM. 4 


2 Const, char *name; 

3 Struct usb gadget Strings **strings; 

4 SS 人 

9 SLEUCT USO) decor PL Or Reader SS 

6 Teruo Usb dosorpptor Header AUS descbtbhpUorey 

7 

8 SULUCE USD CONTIGUralLioOm *COnELG, 

9 

10 SUrUCE USD os desc table “Os 0950 tan le, 

ime unsigned OS desc mn 

L2 

1 |*'«eontiguration management;  dbornd/unmbing: 7 

14 IX (Dine) S rOet LSD COnN rg tron T3 
15 SUDucL usb TUNGGON €. 

16 void (^unband) struct usb cOXSLLIguratron “y 
Ll SeLuCce Usb IUHQCREOI TI? 

1:8 yord (“Pee TUAC) (Struct USD LURCELON, TEL? 
19 struct module smod; 
20 
之 小 /* runtime state management */ 
22 ENE Poer ALU (Seruce USD LUNCELOn 4, 
Zo unsigned interface, unsigned alt); 
24 Laie Get ley (Struce Usb Lune lion Ty 
25 unsigned interface); 
26 Ord ("drosable)struücr Sh rumotron, I7 
2 TNC (tu (SlLruce Usb Tane LO 
28 Consect ‘SEIUCE usbootrlLseguesc Ww) 
SAS void (^suspend)tsbruor Usb" EUNCELON, -*)7 
30 vord (resume) sUrucL USD LINCLEOD yg 
3l 
32 Fe USB 220 adadritrons 7. 
33 dp (Gel Sratus) (Struck uso: Tune rom, >) 
34 LAE (= TUNG. Suspend) (Struck S55 PONGDION 5 
39 u8 suspend opt); 
36 (E. pr Vater 4 
e /* internals */ 
38 SEO Ise head dian eg 
39 DECLARE BITMAP (endpoints, 32); 

40 CODSD S IUC Usb: ZUNCU NOM urns lance: ^61: 

Al}; 


第 4 行 的 氏 descriptors ze 422k FH (RVR IP] fi S FE mm ss descriptors 
是 超 高 速 描 述 符 。bind () 完成 在 Gadget 广 册 时 获取 IO 缓冲 、 端 点 等 资源 。 


在 usb_fonction 的 成 员 函 数 以 及 各 种 指 述 人 符 准备 好 后 ， 在 内核 通过 usb_fbnction register O API 来 完成 
Gadget Function 的 注册 ， 广 API 的 原型 为 : 


下 


在 Gadget 张 动 中 ， 用 usb request 结构 体 来 摘 述 一 次 传输 请 求 ， 这 个 结构 体 的 地 位 类似 于 USB 主 机 侧 的 
URB。usb_ request 结构 体 的 定义 如 代码 清单 16.32 所 示 。 


代码 清单 16.32 usb request 结构 体 


KoG UCE USD: Peguei 1 


2 vorid spars J. Bure used tor data X7 

3 unsigned length; 

4 dma addr t dma;  /* DMA address corresponding to 'buf' */ 
5 

6 SEDUCE: SCatteritst “so; /* a scatterlist fot SG-capable controllers */ 
y unsigned num sgs; 

8 unsigned num mapped sgs; 

9 

10) unsigned Scream To L063 

ll unsigned no-Interrupt:ls 

T2 unsigned Zerosls 

16 unsigned cohort not Ok Ls 

14 

T3 STO (Complete) (Struct: usb ep “ep, 

145 struct usb request *reg); /* Function called when request completes */ 
17 void *"GOntext; 

18 struct lrst-head a 

L9 
20 BOE status; 
21 unsigned actual; 
2:22] 


fEinclude/linux/usb/gadget.h LFF, LAR f —s8e HAPI, LA GEGadget Function 驱 动 调用 ， 从 而 便 
于 它们 操作 冰点， 如 下 所 示 。 


CIO 使 能 和 禁止 端点 


Static Inline tit usb.ep enable (sGruct. usb ep ep)? 
Stable aniline unt Ssh: ep disable (St rucw..ushb. ep: Tep? 


它们 分 别 调用 f “ep->ops->enable Cep, desc) ; ”和 “ep->ops->disable Cep) ; ". 
(2) 分 配 和 释放 usb request 


GLUPUCL USD “equest. “aloo ep req istruce usb cep. “ep, IUD en, tne Cenauly. Tem), 
SCACCO aniline Slruce usb qegdest Tuo ken aroe requeStosLtruct usb “ep, 
gfp t gfp flags); 
Svat. wo: Inline word usb GD rree reguestostruct usb ep “ep; 
Struct usb -reguest regy 
usb ep alloc request (2 和 usb ep free request ) 分 别 调 用 S“ep->ops->alloc request Cep, 
gfp flags) ; ”和 “ep->ops->free request Cep, req) ; ”， 以 用 于 分 配 和 释放 一 个 依附 于 茶 端 点 的 
usb request, Mjalloc ep req ©) 则 是 内 能 了 对 usb ep alloc request (ep, GFP ATOMIC) 的 调用 ， 同 时 日 


动 申请 了 usb requesth Zt zs H3 A f£ © 
(3) 提交 和 取消 usb_request 


Starre line: nt Ssh: epo dqueueiotrqot qb -ep "ep, 


etsuct Usb request “red, grp Corp T LagS)? 
Stabile iene. Ie Usb: ep deguster Usb. ep "ep Struct usb Teqguesc “7edo)> 


它们 分 别 调用 “ep->ops->queue Cep. req, gfp flags) ; ”和 “ep->ops->dequeue Cep. req) ; ”。 
usb ep queue 困 数 告诉 UDC 完成 usb request ORSR) ， 当 请 求 被 完成 后 ， 与 该 请 求 对 应 的 
completion O KAAR H - 


(4) 端点 FIFO 管 理 


Stave In Le Lm usb Cp: Tero -Stauus (Se Uoi sb ep ep) 
SLSUDIC inane. word usb ep rito flush (Struce. Usb: ep Tep)? 


HU 4 Val A “‘ep->ops->fifo status Cep) ”返回 目前 FIFO 中 的 字 节 数 ， 后 者 调用 “ep->ops- 
>fifo flush Cep) ”以 冲刷 挥 FIFO 中 的 数据 。 


(5) mA AACS 


Struct USD eB u95p-autocoHrlot 
Struct uso gadget *gadget, 
struct usb endpoint descripuor ges); 


Ms d ma à f AS FA Pal ie A EUR 2 BG — T E A o 


16.4.2 fl: Chipidea USB UDC 驱动 


drivers/usb/chipidea/udc.czé Chipidea USB UDC 驱 动 的 主体 代码 ， 代 码 清 单 16.33 列 出 了 它 的 初 妈 化 法 程 
部 分 。 它 定义 了 usb ep ops. usb gadget ops， 在 了 最 终 进行 usb add gadget ude O 之 前 填 序 好 了 了 UDC 的 妆 
[VIE o 


代码 清单 16.33  Chipidea USB UDC 驱动 实例 


Letatic Const StEtUcc usb ep Ops Usb ep Ops = 4 
2 .enable =. Bp enaple, 
3 .disable = ep disable, 
4 satLOC Peques: = Gp abc reguest, 
9 OLEO pequest = 6p free request; 
6 . queue = ep queue; 
7 . dequeue = ep dequeue, 
8 (Set Hale = (6p set Harl, 
d .Set wedge — ep set wedge, 
LU AiO. ESN =p LLO lish, 
LLF3 
12 
loSsStatlo Cono SLPUCLt usb gadget Ops usb gadget ops = { 
14 -Dae SeSsiOn— OI HOC Vous session, 
1:5 .Wakeup = ci udc wakeup, 
16 .Set selfpowered = ci udc selfpowered, 
La «pullup = C1 ude pullup, 
18 .vbus draw = GL sudo vous draw, 
US „Udo Start = OL Ude start, 
20 dC STOP = cL Ue slop, 
21}; 
22 
-toatl Lae Init oepstotrucb cr Bdre FEL) 
241{ 
25 int retval = 0, i, J} 
26 
27 for (1 = 07 2 < cr-^hw ep max/2; iv) 
28 for (j = RX; j <= TX; j++) { 
29 int k = i + j * ci->hw ep max/2; 
30 StLUCt CL hw ep *“hwep = ¢G1->Cc. hw- eplkl; 
31 
ud 
d 
34 hwep->ep.name = hwep->name; 
Cr hwep->ep.ops = &usb ep ops; 
35 
37 Usb. 6p Set mdxpacket limrt(ehwepeoep, (unsigned SlorbrL)e0); 
38 
20 
40 
Al f> 
42 * set up shorthands for epO0 out and in endpoints, 
43 ^ UON" t aud DO Gadgets ep LISt 
44 aJ 
45 if (i == 0) { 
46 if (j == RX) 
47 ci-»epOout = hwep; 
48 else 
49 ci->epO0Oin = hwep; 
50 
Dl usb ep set maxpacket limit(&hwep-»ep, CTRL PAYLOAD MAX); 
Du continue; 
53 } 
54 
Do last. add Larl(isünwep--ep.ep.lrist, &OLlcsogadgebt.ep- dist); 
96 } 
5 
58return retval; 
39] 
60 
OlStGaric ne ude StarLt(struct Ci ndro vel) 
624 
63 — 
64 ci->gadget.ops = &uso gadget ops; 
65 ci->gadget.speed = USB SPEED UNKNOWN; 
66 Ci->oadgel.Max speed = USB SPEED HIGH; 
67 GIC CgadgeLt.Ls 0tg = Qoqs GU L s 03 


68 ci->gadget.name = ci->platdata->name; 


o9 


70 INIT LLST HBADUSGI-cgadgetsep LSC)? 
gx 

E 

T3 

74 Letvak ce ALE eps. (er); 

TS if (retval) 

TG goUO ETO. > 

77 

T ci->gadget.epO = &ci->ep0in->ep; 

V9 

80 retval = usb add gadget udctidev, &cr-^2gadget); 
81 


S2 


16.4.3 Æl: Loopback Function3ka) 


drivers/usb/gadget/function/f loopback.c 实 现 了 一 个 最 简单 的 Loopback 豫 动 ， 它 完成 的 主要 工作 如 下 。 


1) 实现 usb function 实 例 及 其 中 的 成 员 函 数 bind ©) 、set alt © 、disable © ~ free func O 等 成 员 
PS BN 


2) HER USBAP WHY AC ES tk He A fai usb interface descriptor. "m; rijXx^jusb endpoint descriptor 


3) 发 起 usb request 处 理 usb request 的 完成 并 回环 。 


代码 清单 16.34 是 抽取 了 drivers/usb/gadget/function/f loopback.c X: (4 P Ré sc Hit — ^ Function ay 3 As Zi 4 
Hb EIN. 


代码 清单 16.34 Loopback USB Gadget Function 1X5) S fill 


lstatloc Struct. Usb. Interrace descriptor loopback BEI 1 

2 .bLength = sizeof loopback: inti, 

3 .bDescriptorType = USB DT INTERFACE, 

4 

F .bNumEndpoints = P 

6 .bInterfaceClass - USB CLASS VENDOR SPEC, 

7 /* .ilnterface = DYNAMIC */ 

9]; 

9 

LOStTaACLe Struct USD endpoint desScripLor ts Joop source desc = q 
11 .bLength = USB DT ENDPOINT SIZE, 

t2 .bDescriptorType = USB DT ENDPOINT, 

1.3 

14 .bEndpointAddress - USB DIR IN, 

15 .bmAttributes = USB ENDPOINT XFER BULK, 

16]; 

LiSbatle SuIUOL usb descriptor Header FIS loopbaock descs| | = 4 
18 (Struct usb descriptor header *) &loopback anti, 

19 (Struct usb descriptor. header ^) «fs loop sink desc, 
20 (GLruct usb descriptor Header *) fs LOOP source desc, 
ZA NULL, 
224] 
29S ta LIO BUDEHOL USD String Strange loopback |. = 1 
24 | = "loop input to output", 
25 { ] /* end of list */ 
26j; 
2 
209ta CLO Struct USD gadget Strings SUCrIggtab loop = | 
29 .language = 0x0409, [* en-us */ 
30 *SErLngs = Strings loopback, 
31}; 
32 
Eee Struct uso gadget strings “Loopback scESDgs[l]p =4 
34 &stringtab loop, 
35 NULL, 
B9] 
21 
S30Stat1c int loopback bind (Seruce. Usb Contaguration ^O, Struct usb TüuncLlon ~I) 
294 

40... 

4lloop-»in ep = usb ep autoconfigí(cdev-»gadgeL, rS loop source desc); 
42... 


43loop-^out ep = usb ep autoconfig(cdev-»gadget, &fs loop sink desc); 
44if (!loop-»out ep) 


45 goto autoconf tail; 
46loop-»out ep-»driver data = cdev;/* claim */ 
4] 


48/* support high speed hardware */ 
49hs loop source desc.bEndpointAddress = 


bo loop-csource desc.DbEndpornuAOGdress; 

Shs- Loop sink desc. bEndpornchddress = fs. boop.sank. desceDEndporHbtAddEess; 
52 

53/* support super speed hardware */ 

5455 loop source desc.bbndpointAddress = 

39 re 1OOp: SOurCce -deste DEndpolnvAddress; 

OSs: JIoop sink desc. bEndpoincAddress. = fs. loop sink: desc.DEndporntaodress; 
Sy 

DOret cm USD assign cdeserrotorsTb, ES: Loopback, ‘descs, Ms. loopback descs, 

29 ss IloopDOock.;gdesecs); 

Obras s 

olreturn 0; 

62] 

63 

OSASCQULIC word Lb Tree Tunc (Struct. us). STunctron E) 

651 

OO gs 

o.usD Tree all descriptors); 

本 

69 } 

70 

TIStACLC "SL Heb unco * loopback ALLOC ST UCC Web cDOBCUBOD Inetance I) 
VA 

Ts 23d 

74 loop--runctrion.name = "loopback"; 

75 LOOP- cLUuReLloHsbund = Loopbaek band, 

BG IOOP= TUNO LLON set a LE e Loopback Set ubt; 

Jd loopse^runctronsdasable = loopback disable; 

78 Loopeesrumneurohgstbipgse c qoo0poNgexcgorsngss 

J9 

80 LOOPS LUNeCt LOM. Tree: Tune — Jb -Troen Tune; 

oul 

82 recurn, &Loop--runctron; 

93: 

84 

SOStatic vorid. Loopback Compleve (Struct: usb ep “ep; Struct Usb reguest “req) 
86 { 

OI weak 

88 } 

89 

JOS tati “Ine. enable endpornuistruct. usb Composite dev “cdev, struct T )o0pback. “loop, 
2 SLPUCU USD ep “ep) 

9 

9 GUCt: Usb request peg; 

94... 

P»oresult = Contig. cep DY epeed(iodevecgadgebty ELO- Tunet), Cp); 

96 

JI LESULL: = usb.ep enable(ep) 7 


98 
3JJep= -driver data = 100p? 
100 
LOLlioe (L = 07 1 € glen && result == 0; a+) 4 
102 reg e Lb arloe epi eq (ep, UJ7 
LOS if (!req) 
104 goto tarli; 
LOS 
106 reg-ccoomplete = loopback Complete, 
EO result = Usb ep queue(ep, Ted; GFP ATOMIC); 
LOS if (result) { 
109 ERROR (cdev, "%S queue req --> %d\n", 
IL ep-»name, result); 
Du qoto fairi; 
1.12 } 
113) 
114 
Ts es 


LLG} 


16.5 USB OTGUEKZJJ 


USB OTG 标 准 在 完全 兼容 USB 2.0 标 准 的 基础 上 ， 它 允许 设备 既 可 作为 主机 ， 也 可 作为 外 设 操作 ， 
OTG 新 增 了 主机 通令 协议 (CHNP) 和 对 话 请 求 协议 (SRP) à- 


在 OTG 中 ， 初 始 主机 设备 称 为 A 设 备 ， 外 设 称 为 B 设 备 。 可 用 电缆 的 连接 方式 来 决定 初始 角色 。 两 用 
设备 使 用 新 型 Mini-AB 插 座 ， 从 而 使 Mini-A 插 头 、Mini-B 插 头 和 Mini-AB 插 座 增添 了 第 5 个 引 脚 CID) ， 以 
用 于 识别 不 同 的 电 绑 姗 点 。Mini-A 插 头 中 的 了 D 引 脚 接 地 ，Mini-B 插 关中 的 卫 引 脚 浮 空 。 当 OTG 议 备 检 训 
到 接地 的 ID 引 脚 时 ， 表 示 默 认 的 是 A 设 备 〈 主 机 ) ， 而 检测 到 ID 引 脚 浮 空 的 设备 则 认为 是 B 设 备 〈 外 
设 ) 。 系 统一 旦 连接 后 ，OTG 的 角色 还 可 以 更 换 ， 以 采用 新 的 HNP 协 议 。 而 SRP 人 允许 B 设 备 请 求 A 设备 打 
开 VBUS 电 源 并 局 动 一 次 对 话 。 一 次 OTG 对 话 可 通过 A 设备 提供 VBUS 电 源 的 时 间 来 确定 。 


E Linux 2.6.9 开 始 ，OTG 相 关 源 代码 已 经 被 包含 在 内 核 中 了 ， 新 增 的 主要 内 容 包 括 : 
(1) UDC 驱动 端 添 加 的 OTG 相 关 属 性 和 函数 


struct usb. gadget 4 


unsigned io Org: 


unsigned ls a peripheralil; 
unsigned b hnp enables; 
unsigned a nnp Supporti 
unsigned aalt NNP supports; 


); 

int usb gadget ‘vous connect (struc. usb gadget. *gadget); 

int Usb. gadget -vbus disconnectistruct usb gadget *gadget); 

int usb gadget vbus draw(struct usb gadget *gadget, unsigned. mA); 
/* 控制 USB D+ 的 上 拉 */ 

Ine usb gadget connect (Struct usb gadget gadge); 

Int. USO gadget disconnecc(strucc usb gadget “gadget; 

/* iXRMZUSB host, 官 也 会 党 试 SRE 会 证 */ 

mnt. usb gadget wakeup (struct. usb gadget *gadger); 


(2) Gadget9K a) vig ZS JH HJOTGATH X Je VE AH PA 233 


如 果 gadget->is_otg 字 段 为 呐 ， 则 增加 一 个 OTG 描 述 符 :通过 printk O 、LED 等 方式 报告 HNP 可 用 ; 
当 挂 起 开始 时 ， 通 过 有 用户 界面 报告 HNP 切 换 开 始 〈B-Peripheral 到 B-Host 或 A-Peripheral 到 A-Host) 。 


(3) 主机 侧 添 加 的 OTG 相 关 属 性 和 函数 
在 USB 核 心中 新 增 了 关于 OTG 设 备 枚 举 的 信息 : 


Struct usb. bus + 


UD DOUG Port; /* 0, or index of OTG/HNP port */ 
unsigned is b host:1; /* true during some HNP roleswitches */ 
unsigned D up enuabletl; /* OTG: did A-Host enable HNP  */ 


为 了 实现 HNP 需 要 的 挂 起 /恢复 ， 新 增 如 下 通用 接口 : 


Tie Usp suspend. device (Suruc usb device “dev: UA stale), 
int Usb. resume devrceisrrugo Usb -dewrce.*dew)7 


(4) 新 增 OTG 功 能 切 搞 和 协议 的 朱 述 结构 体 usb otg 


SULUCE usb org d 
u8 default «a; 
St EE "SR “Ony; 
/* old usb phy interface */ 
人 *^usb phy; 
STEUCT. usb Dus MNOS Ly 
STUC “Usb. gadget *gadget; 
enum: USD Eg State Stare, 
A Dimdyunbind. he ‘host controller +7 
Ic (7SSG. NOS) (SULUCE Usb: og “otg; Struct Usb bus THOST? 
A Sap docanbdg mno. the peripheral Qonbtroller. t7 
LNE (^set pert loieral)- (struc web ot oto 
Struct usb-gauget ^gadget)sy 
[A arr rective for A-perripheral,. rgnored. tor B devices */ 
POE se (SELuel USD ObDg *9tg. DOOL enabled); 
L* Tor B devices only: “start session with A-Host */ 
LIE ee 
人 
ITE 人 


usb otg JA —JTEUSBHJphy?m S, HAT, MP fzHdrivers/usb/musb/musb gadget.c. 
drivers/usb/phy/phy-tw16030-usb.c. drivers/usb/phy/phy-isp1301-omap.c. drivers/usb/phy/phy-fsl-usb.c#l 
drivers/usb/musb/musb gadget.c 等 驱动 中 可 以 找到 类 似 的 例子 。 


16.6 W4 


JOD —H 


USBJKz/]; JjUSB XE BLUR Z/JRIUSB i A UJ, GRA SHIUSB FE Le Hl 48 FG OHCIS nie, JB XL 
驱动 的 绝 大 部 分 工作 都 可 以 沿用 通用 的 代码 。 


对 于 一 个 USB 设 备 而 言 ， 它 全 少 具 备 两 章 吴 份 :， 让 和 完 它 古 “USB” 的 ， 其 次 它 古 “ 目 己 ”的 。USB 人 设备 
是 “USB” 的 ， 指 它 挂 接 在 USB 总 线 上 ， 其 必须 完成 usb driver 的 初始 化 和 注册 : USB 设备 是 “和 白 己 ”的 ， 意 味 
着 本 里 可 能 是 一 个 字符 设备 、tty 设 备 、 网 络 设 备 等 ， 因 此 ， 在 USB 设 备 驱动 中 也 必须 实现 符合 相应 框架 的 
代码 。 


USB 议 备 张 动 的 目 身 设备 张 动 部 分 的 谈 写 等 操作 这 程 有 其 特殊 性 ， 即 以 URB 来 员 罕 始终 ， 一 个 URB 的 
生命 周期 通 币 包 含 创 建 、 初 始 化 、 提 交 和 被 USB 核 心 及 USB 主 机 传递 、 完 成 后 回调 冰 数 被 调用 的 过 程 ， 当 
然 ， 在 URB 被 驱动 所 交 后 ， 也 可 以 被 取消 。 


在 UDC 和 Gadget Function 侧 ，UDC 天 心 质 层 的 便 件 操作 ， 而 Function 驱 动 则 只 是 利用 带 用 的 API， 并 通 
过 usb request5E JE ESUDCJUEzJJAZ H.. 


第 17 音 “IC、SPI、USB 驱 动 架构 类 比 
本 章 导读 


本 章 类 比 FC、SPI、USB 的 结构 ， 从 而 进一步 帮助 读者 理解 本 书 第 2 章 的 内 容 ， 也 进一步 实证 Linux 驱 
BAA A SR TSE s 


171 EC、SPI、USB 驱 动 架 构 


根据 图 12.4，Linux 倾 癌 于 将 主机 端的 驱动 与 外 设 端的 驱动 分 离 ， 而 通过 一 个 核心 层 将 某 种 总 线 的 协 

议 进 行 抽象 ， 外 设 端的 驱动 调用 核心 层 API 间 接 过 渡 到 对 主机 驱动 传输 函数 的 调用 。 对 于 FC、SPI 这 类 不 

具备 热 插 拔 能 力 的 总 线 而 言 ， 一 般 在 arch/arm/mach-xxx 或 者 arch/army/bootdts 中 会 有 相应 的 板 级 描述 信息 ， 
描述 外 设 与 主机 的 连接 情况 。 


Linux 的 各 个 子 系统 都 呈现 为 相同 的 特点 ， 表 17.1 类 比 了 [KC、SPI、USB 驱 动 架 构 ， 其 他 的 PCI 等 都 是 
类 似 的 。 


表 17.1 IC、SPI、USB 驱 动 架构 的 类 比 









| 描述 主机 的 数据 结构 usb_hed 
机 机 驱动 传输 成 员 咖 数 master_xfer() urb enqueue() 


由 Pc 控制 器 挂 接 的 总 线 H SPIES 制 器 挂 接 的 总 | H USB 控制 器 挂 接 的 总 


侧 | 主机 的 枚 举 方法 
| 决定 (一般 是 platform) 线 决定 (一 般 是 platform ) | 线 决 定 


J 


- 股 是 platform) 






核 | 描述 传输 协议 的 数据 结构 spi_message URB 

ie iso. Sm spi sync() 
传输 API 12c transfer() l usb submit urb() 

层 spi async() 

外 | 外 设 的 枚 举 方法 usb_driver 

n 

lx 7: : 

a | 描述 外 设 的 数据 结构 i2c client spi_device usb_ device 

项 

板 | 非 设 备 树 模式 spi_board_info 总 线 具 备 热 搬 拔 能 力 

级 


在 TC 控制 器 ES 在 SPI 控制 器 节点 下 添 
ü 总 线 具 备 热 插 拔 能 力 


FR 加 子 节点 


Hii 


对 于 USB、PCI 等 总 线 而 言 ， 由 于 它们 有 具备 热 插 拔 能 力 ， 所 以 实际 上 不 存在 类 似 FKC、SPI 这 样 的 板 级 
摘 述 信息 。 换 句 话 说 ， 即 便 是 有 这 类 信息 ， 其 实 也 没有 什么 用 ， 因 为 如 果 写 了 板子 上 有 个 U 盘 ， 但 实际 上 
没有 ， 其 实 反而 是 制造 了 麻烦 ;相反 ， 如 果 没 有 写 ，U 盘 一 旦 插入 ，Linux USB 子 系统 会 自动 探测 到 一 个 U 


hn 


TIL o 


同时 我 们 注意 到 ，FC、SPI、USB 控 制 器 虽然 给 别人 提供 了 总 线 ， 但 是 其 实 自己 也 是 由 它 自 身 依 附 的 
总 线 枚 举 出 来 的 。 比 如 ， 对 于 SoC 而 言 ， 这 些 控制 右 一 般 是 直接 集成 在 必 瞩 内 部 ， 通 过 内 存 访 问 指令 来 访 
问 的 ， 因 此 它们 目 映 是 通过 platform driver. platform device 这 种 模型 枚 举 进 来 的 。 


17.2”FC 主 机 和 外 设 眼 里 的 Linux 世 界 


PC 控制 器 所 在 驱动 的 platform driver 与 arch/arm/mach-xxx 中 的 platform device (或 者 设备 树 中 的 节点 ) 
通过 platform 总 线 的 match © 函数 匹配 导致 platform driver.probe O 执行 ， 从 而 完成 FC 控制 器 的 注册 ; 而 
I*C 上 面 挂 的 触摸 屏 依 附 的 i2c_driver 与 arch/arnymach-xxx 中 的 i2c board info 指 向 的 设备 (或 者 设备 树 中 的 
节点 ) 通过 IC 总 线 的 match() 函数 匹配 导致 2c driverprobe O 执行 ， 从 而 使 触摸 屏 展开 。 


图 17.1 虚 线 上 方 部 分 古 i2c_adapater 眼 里 的 Linux 世 界 ; 下 方 部 分 古 i2c_client 腿 里 的 Linux 世 界 。 其 实 
Linux 中 的 每 一 个 设备 通过 它 依 附 的 总 线 航 枚 举 出 来 ， 尽 管 它 目 映 可 能 给 别人 提供 总 线 。 
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图 17.1 IC 主机 和 外 设 眼 里 的 Linux 世 界 


第 18 音 ARM Linux 设 备 树 


本 和 章 将 介绍 Linux 设 备 树 CDevice Tree) 的 起 源 、 结 构 和 因为 设备 树 而 引起 的 驱动 和 和 BSP 变更 。 
18.1 节 阐明 了 ARM Linux 为 什么 要 采用 设备 树 。 


18.2 区 详细 放 析 了 设备 树 的 结构 、 克 点 和 属性 ， 设 备 树 的 编 详 方法 以 及 如 何 用 设备 树 来 持 述 板 上 的 设 
、 设 备 的 地 址 、 设 备 的 中 断 亏 、 时 钟 等 信息 。 


18.3 节 讲解 了 采用 设备 树 后 ，BSP 和 张 动 的 代码 需要 怎么 改 ， 哪 些 地 方 变 了 。 
18.4 广 补充 了 一 些 与 设备 树 相 关 的 API 定 义 以 及 用 法 。 


本 章 内 容 是 步 入 Linux 3.x 时 代 后 ， 般 入 云 Linux 工 程 师 必 备 的 知识 体系 。 


18.1 ARM 设 备 树 起 源 


在 过 去 的 ARM Linux 中 ，archy/arm/plat-xxx 和 arch/arm/mach-xxx 中 充斥 着 大 量 的 垃圾 代码 ， 很 多 代码 只 
是 在 描述 板 级 细节 ， 而 这 些 板 级 细节 对 于 内 核 来 讲 ， 不 过 是 垃圾 ， 如 板 上 的 platform 设 备 、resource、 
i2c board info. spi board info 以 及 各 种 人 硬件 的 platform data。 读 者 若 有 兴趣 ， 可 以 统计 一 下 常见 的 
Ss3c2410、gs3c6410 等 板 级 目录 ， 代 但 量 在 数 万 行 。 


设备 树 是 一 种 摘 述 使 件 的 数据 结构 ， 它 起 源 于 OpenFirmware (OF) 。 在 Linux 2.647, ARMATA 
极 硬 件 细节 过 多 地 被 便 编 码 在 archy/arnmy/plat-xxx 和 arch/arm/mach-xxx 中 ， 采 用 设备 树 后 ， 许 多 硬件 的 细节 可 
以 直接 通过 它 传 递 给 Linux， 而 不 再 需要 在 内 核 中 进行 大 量 的 几 余 编码 。 


设备 树 由 一 系列 人 补 命 名 的 节点 (Node) 和 属性 (Property) 组 成 ， 而 节点 本 里 可 包含 子 节 点 。 所 谓 属 
性 ， 其 实 束 是 成 对 出 现 的 名 称 和 值 。 在 设备 树 中 ， 可 摘 述 的 信息 包括 (原先 这 些 信 息 大 多 被 便 编 码 在 内 核 
中 ) : 


-CPU 的 数量 和 类 别 。 
内存 基地 址 和 大 小 。 
忆 线 和 桥 。 

-外 设 连 接 。 

-中断 控 制 器 和 中 断 使 用 情况 。 
-GPIO 控 制 器 和 GPIO 使 用 情况 。 
时钟 控 制 器 和 时 钟 使 用 情况 。 


它 基 本 上 束 是 男 一 棣 电路 板 上 CPU、 忌 线 、 设 备 组 成 的 树 ，Bootloader 会 将 这 栋 树 传 地 给 内 核 ， 然 后 
内 核 可 以 识 列 这 标 树 ， 并 根据 它 展 开 出 Linux 内 核 中 的 platform device、i2c_client、spi_device 等 设备 ， 和 而 这 
些 设备 用 到 的 内 存 、 耻 Q 等 资源 ， 也 被 传递 给 了 了 内核， 内 核 会 将 这 些 资源 绑 定 给 展开 的 相应 的 设备 。 


18.2 ”设备 树 的 组 成 和 结构 


整个 设备 树 替 涉 面 比较 广 ， 即 增加 了 新 的 用 于 摘 述 设备 人 硬件 信息 的 文本 格式 ， 又 增加 了 编译 这 个 文本 
的 工具 ， 同 时 Bootloader 也 需要 文 持 将 编 详 后 的 说 备 树 传递 给 Linux 内 核 。 


182.1 DTS、DTC 和 DTB 等 


1.DTS 


文件 .dts 是 一 种 ASCI 文 本 格式 的 姑 备 树 拍 述 ， 此 文本 格 去 非常 人 性 化 ， 适 合 人 其 的 阅读 习惯 。 基 本 
上 ， 在 ARM Linux 中 ， 一 个 .dts 文 件 对 应 一 个 ARM 的 设备 ， 一 般 放 置 在 内 核 的 arch/arm/boot/dts/ 目 录 中 。 值 
得 注意 的 是 ， 在 arch/powerpc/boot/dts、arch/powerpc/boot/dts、arch/c6x/boot/dts、arch/openrisc/boot/dts 等 目 
录 中 ， 也 存在 大 量 的 .dts 文 件 ， 这 证 明 DTS 绝 对 不 是 ARM 的 专利 。 


由 于 一 个 SoC 可 能 对 应 多 个 设备 《一 个 SoC 可 以 对 应 多 个 产品 和 电路 板 ) ， 这 些 .dts 文 件 势 必须 包含 许 
多 共同 的 部 分 ，Linux 内 核 为 了 人 简化， 把 SoC 公 用 的 部 分 或 者 多 个 设备 共同 的 部 分 一 般 提 炬 为 .dtsi， 类 似 于 
C 语 言 的 头 文 件 。 其 他 的 设备 对 应 的 .dts 就 包括 这 个 .dtsij。 辟 如， 对 于 VEXPRESS 而 言 ，vexpress-v2m.dtsij 就 
f vexpress-v2p-ca9.dtsP/r5| H, vexpress-v2p-ca9.dts "IH R47 4X3: 


/include/ "vexpress-v2m.dtsi" 


当然 ， 和 C 语 言 的 头 文 件 类 似 ，.dtsi 也 可 以 包括 其 他 的 .dtsi， 璧 如 几乎 所 有 的 ARM SoC 的 .dtsi 都 引用 了 


skeleton.dtsl。 


文件 .dts (或 者 其 包括 的 .dtsi〉 的 基本 元 系 即 为 前 文 所 述 的 三 把 和 属性 ， 代 人 码 消 蛙 18.1 给 出 了 一 个 设备 
树 结 构 的 柑 版 。 


代码 清单 18.1 设备 树 结构 模版 


~ 
—— 


1 

d nodel { 

3 a-string-property = "A string"; 

4 a-string-list-property = "first string", "second string"; 
E a-byte-data-property = [0x01 0x23 0x34 0x50]; 

6 child-nodel1 { 

i Irirst-ochi1lg-propercy; 

8 second-chiid-property = <1>; 

9 a-string-property = "Hello, world"; 
10 } 7 
L1 child-node2 { 
12 bs 

URS }; 

14 node2 { 

La an-empty-property; 

16 a-cell-property = <1 2 3 4>; /* each number (cell) is a uint32 */ 
17 child-nodel1 { 

18 d 

19 ) 

20] 


上 上 述 .dts 文 件 并 没有 什么 真实 的 用 途 ， 但 它 基 本 表征 了 一 个 设备 树 源 文件 的 结构 : 


1 个 root 节 点 VM"; root 节 点 下 奇伟 一 系列 子 节点 ， 本 例 中 为 nodel 和 node2; 节点 nodel 下 义 含 有 一 系列 子 
节点 ， 本 例 中 为 child-node1 和 child-node2; 各 贡 点 都 有 一 系列 属性 。 这 些 属 性 可 能 为 空 ， 如 an-empty- 


property; 可 能 为 字符 串 ， 如 a-string-property; 可 能 为 字符 串 数组 ， 如 a-string-list-property; 可 能 为 
Cells〈 由 u32 整 数组 成 ) ， 如 second-child-property; 可 能 为 二 进 制 数 ， 如 a-byte-data-property。 


下 面 以 一 个 最 简单 的 设备 为 例 来 看 如 何 写 一 个 .dts 文 件 。 如 图 18.1 所 示 ， 假 设 此 设备 的 配置 如 下 : 
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图 18.1 Wee pa NU ML 


14 XU ARM Cortex-A932 hr Ab XE 28; ARM 本 地 总 线 上 的 内 存 映 射 区 域 分 布 有 两 个 串口 (分 别 位 于 
0x101F1000 和 0x101F2000〉 、GPIO 控 制 器 (位 于 0x101F3000〉 、SPI 控 制 器 〈 位 于 0x10170000) . P Wr 
Pillar CAT O0x101400000 和 一 个 外 部 总 线 酉 : 外 部 总 线 桥 上 义 连 捷 J 了 SMC SMC91111 以 太 网 〈 位 于 
0x10100000) 、C 控 制 器 〈 位 于 0x10160000) 、64MB NOR Flash“〈 位 于 0x30000000) ; 外 部 总 线 桥 上 
连接 的 IFC 控 制 器 所 对 应 的 FC 总 线 上 又 连接 了 Maxim DS1338 实 时 钟 《IC 地 址 为 0x$8) 。 


对 于 图 18.1 所 示人 使 件 结构 图 ， 如 采用 “dts” 朱 人 述 ， 则 其 对 应 的 “dts”" 文 件 如 代 但 清单 18.2 所 示 。 


代码 清单 18.2 ”参考 便 件 的 设备 树 文 件 


NS 
—— 


L 
2 compatible = "acme, coyotes-revenge"; 
3 #address-cells = «1»; 
4 #Size-cells = «1»; 
m interrupt-parent = «&intc»; 
6 
J cpus 4 
8 #address-cells = «1»; 
9 #Ssize-cells = «0»; 
10 cpu@0O ( 
11 compatible = "arm,cortex-a9"; 
HE, reg = «0»; 
l3 }; 
14 cpu@l { 
125 compatible = "arm,cortex-a9"; 
16 reg = «1»; 
1 te 
18 }; 
19 
20 serial8101f0000 { 
2l compatible = "arm,pl011"; 
La reg = «Ox101f0000 Ox1000 >; 
23 interrupts = < 10 >; 
24 ^; 
25 
26 seriall101f2000 { 
2d compatible = "arm,pl011"; 
28 reg = «Ox101f2000 Ox1000 >; 


29 interrupts = < 2 0 >; 


30 13 


21 

32 gpio@101f3000 { 

33 compatible = "arm,pl061"; 

34 reg = «Oxl101f3000 0x1000 

o9 OxlOIf4000 O0xO0O0l0»5; 

36 interrupts = < 3 U >; 

at }; 

38 

39 Inco: interrupt-controllert10l40000 1 

40 compatible = "arm, p190"; 

41 reg = <0x10140000 0x1000 >; 

42 interrupt-controller; 

43 finterrupt-cells = <2>; 

24 be 

45 

46 spi@10115000 { 

47 compatible = "arm,p1022"; 

48 reg = <0x10115000 Ox1000 >; 

49 interrupts = < 4 0 >; 

50 }; 

51 

d external-bus { 

53 #address-cells = <2> 

54 #Size-cells = «1»; 

55 ranges = <0 0 0x10100000 0x10000 // Chipselect 1, Ethernet 
56 10 0x10160000 0x10000 l4 Chapse lect. 2, 226 controller 
o 20 0x30000000 0x1000000>; // Chipselect 3, NOR Flash 
58 

59 ethernet@0,0O { 

60 compatible = "smc,smc91cl11"; 

61 reg = «0 0 0Ox1000»; 

62 interrupts = x D A >} 

63 } 7 

64 

65 1268140 4 

66 compatible = "acme,al234-i2c-bus"; 
67 #address-cells = «1»; 

68 fsize-cells = «0»; 

69 reg = «1 0 0Ox1000»; 

7 interrupts = < 6 2 >; 

71 rtc@58 { 

T2 compatible = "maxim,ds1338"; 
73 reg = <58>; 

74 interrupts = «€ 7 3 >; 

15 te 

T4 bea 

77 

78 Llashe2,0 4 

719 compatible = "samsung, ketlj3lsebm", "cfii-flash"; 
80 reg = «2 0 0Ox4000000»; 

81 }; 

82 }; 

83}; 


在 上 述 .dts 文 件 中 ， 可 以 看 出 external-bus 是 根 节点 的 子 节点 ， 而 EC 又 是 external-bus 的 子 节点 ，RTC 又 
进一步 是 EC 的 子 节点 。 每 一 级 节点 都 有 一 些 属性 信息 ， 本 章 后 续 部 分 会 进行 详细 解释 。 


2.DTC (Device Tree Compiler ) 


DTC 古 将 .dts 编 详 为 .dtb 的 工具 。DTC 的 源 代码 位 于 内 核 的 scripts/dtc 目 录 中 ， 在 Linux 内 核 使 能 了 设备 
树 的 情况 下 ， 编 详 内 核 的 时 候 主 机 工具 DTC 会 和 要 编译 出 来 ， 对 应 于 Scripts/dtc/Makefile 中 “hostprogs-y: 


yo 


=dtc” 这 一 hostprogs 的 编译 目标 。 


当然 ，DTC 也 可 以 在 Ubuntu 中 单独 安装 ， 命 邻 如下: 


sudo apt-get install device-tree-compiler 


在 Linux 内 核 的 arch/arny/bootdts/Makefile 中 ， 摘 述 了 当 霖 种 SoC 被 选中 后 ， 哪 些 .dtb 文 件 会 极 编 详 出 


来 ， 如 与 VEXPRESS 对 应 的 .dtb 包 括 : 


dtb-S$(CONfiG ARCH VEXPRESS) += vexpress-v2p-ca5s.dtb ^ 
vexpress-v2p-ca9.dtb \ 

vexpress-v2p-calo-tcl.dtb \ 

vexpress-v2p-oal5 a&T.dtb \ 

xenvm-4.2.dtb 


在 Linux 下 ， 我 们 可 以 单独 编 详 设备 树 文件 。 当 我 们 在 Linux 内 核 下 运行 make dtbs 时 ， 右 我 们 之 前 选择 
了 ARCH VEXPRESS， 上 述 .dtb 都 会 由 对 应 的 .dts 编 译 出 来 ， 因 为 arch/arnyMakefile 中 含有 一 个 .dtbs 编 译 目 


标 项 目 。 
DTC 除 了 可 以 编译.dts 文 件 以 外 ， 其 实 也 可 以 “ 反 汇 编 *.dtb 文 件 为 .dts 文 件 ， 其 指令 格式 为 : 


Soripts/adte/dte =I dtb -0 dto -0 XxXxx.dts eacch/asvm/boOL/dEbSyXxxx.dtb 


3.DTB (Device Tree Blob) 


文件 .dtb 是 .dts 补 DTC 编 详 后 的 二 进 制 格式 的 设备 树 接 述 ， 可 由 Linux 内 核 解 析 ， 当 然 U-Boot 这 样 的 
bootloader 也 是 可 以 识 列 .dtb 的 。 


通常 在 我 们 为 电路 板 制作 NAND、SD 局 动 映像 时 ， 会 为 .dtb 文 件 单 独 留 下 一 个 很 小 的 区 域 以 存放 之 ， 
之 后 bootloader 在 引导 内 核 的 过 程 中 ， 会 先 读 取 该 .dtb 到 内 存 。 


Linux 内 核 也 文 持 一 种 变通 的 模式 ， 可 以 不 把 .dtb 文 件 单独 人 存放， 而 是 直接 和 zImage 绑 定 在 一 起 做 成 一 
个 映像 文件 ， 类 似 cat zImage xxx.dtb>zImage with dtb 的 效果 。 当 然 内 核 编 译 时 候 要 使 能 
CONFIG ARM APPENDED DTB 这 个 选项 ， 以 文 持 "Use appended device tree blob to zImage" (Jl Linux 
核 中 的 荣 单 ) 。 


4. 绑 定 (Binding) 


对 于 设备 树 中 的 三 扣 和 属性 具体 是 如 何 来 手 述 设备 的 人 硬件 细 太 的 ， 一 般 需 要 文档 来 进行 讲解 ， 文 档 的 
后 级 名 一 般 为 .txt。 在 这 个 .txt 文 件 中 ， 需 要 插 述 对 应 太 扣 的 菩 容 性 、 必 和 需 的 属性 和 可 选 的 属性 。 


这 些 文档 位 于 内 核 的 Documentation/devicetree/bindings 目 录 下 ， 其 下 义 分 为 很 多 子 日 录 。 壁 如 ， 
Documentation/devicetree/bindings/i2c/i2c-xiic.txt 描 述 了 Xilinx 的 了 C 控 制 器 ， 其 内 容 如 下 : 


Xilinx IIC controller: 
Required properties: 


= compatible s Must: be "xlmx,xps-110-2,00,.a" 
reg : IIC register location and length 
interrupts : IIC controller unterrupt 


#address-cells = «1» 
#Size-cells = <0> 
Optional properties: 
- Child nodes conforming to i2c bus binding 
Example: 

axi iic 0: i2c@40800000 { 
compatible = c'Uxlpxxps-rizszo-2,00,.,8'; 


interrupts = =< Ll 2 >j 

reg = « 0x40800000 0x10000 >; 
#Size-cells = «0»; 
#address-cells = «1»; 


基本 可 以 看 出 ， 设 备 树 绑 定 文 梢 的 主要 内 容 包 括 : 
CRT ACE Eg BIS EI] dE UR 

必需 属性 (Required Properties) 的 描述 

:可 选 属 性 (Optional Properties) 的 描述 
一 个 实例 。 


Linux P $% F ÜJscripts/checkpatch.plZzie fT —^ Tw £x, WARE AE Ve HRS I compatible 4 FB , 
MRA AS DAK NL] SCRA ETT ERE, checkpatchfz P ok tt 4: UNDOCUMENTED DT STRINGDT 
compatible string xxx appears un-documented， 因 此 程序 员 要 养 成 及 时 与 DT Binding 文 档 的 习惯 。 


5.Bootloader 
Uboot 设 备 从 v1.1.3 开 始 文 持 设 备 树 ， 其 对 ARM 的 文 持 则 是 和 ARM 内 核 文 持 说 备 树 同期 完成 。 
为 了 使 能 设备 树 ， 需 要 在 编译 Uboot 的 时 候 在 config 文 件 中 加 入 : 


#define CONfiG OF LIBFDT 


在 Uboot 中 ， 可 以 从 NAND、SD 或 者 TFTP 等 任意 介质 中 将 .dtb 读 入 内 存 ， 假 设 .dtb 放 入 的 内 存 地 址 为 
0x71000000， 之 后 可 在 Uboot 中 运行 fdt addr 命 令 设 置 .dtb 的 地 址 ， 如 : 


UBoot> fdt addr 0x7/1000000 


fdt Le ais ETS AT EFA, fdt resize, fdt print 等 。 


x} FARM, FY EB xL bootz kernel addr initrd address dtb address 的 命令 来 局 动 内 核 ， 即 dtb address 
VE ANbootzit 4 boomt] w KBR, B-SBSRAARI RN hh, BASA Jinitrd HE, AE 
在 initrd， 可 以 用 “符号 代 符 。 


18.2.2 WWT ARAE 


上 述 .dts 文 件 中 ， 第 2 行 根 节 点 "的 兼容 属性 compatible="acme，coyotes-revenge"; 定义 了 整个 系统 


(设备 级 别 ) 的 名 称 ， 它 的 组 织 形式 为 : <manufacturer>，<model>。 


Linux 内 核 通 过 根 节 后 "的 菩 容 属性 即 可 判断 它 局 动 的 是 什么 设备 。 在 真实 项 目 中 ， 这 个 顶层 设备 的 
菩 容 属性 一 般 包 括 两 个 或 者 两 个 以 上 的 阐 容 性 字符 串 ， 自 个 羔 容 性 字 和 从 串 是 极 子 级 别 的 名 字 ， 后 面 一 个 莱 
EES HBA CBS AIBA WA 


E flf -Y-arch/arm/boot/dts/vexpress-v2p-ca9.dtsa Z* Farm, vexpress, v2p-ca9#ll“arm, vexpress”: 


compatible = "arm,vexpress,v2p-ca9", "arm,vexpress"; 
, 


NF arch/arm/boot/dts/vexpress-v2p-ca5s.dts Hy He x VE WIA: 


compatible = "arm,vexpress,v2p-cabs", "arm,vexpress"; 
7 


Ti. -T-arch/arm/boot/dts/vexpress-v2p-cal5 a7.dtsH*J3i AEN: 


compatible. = -"arm,vexpress,v2pescalo ai", “arm,Vvexpress 7 


AUDA HY, ERATEN E ERA arm, vexpress, MEETA RA Farm, vexpress, v2p- 


ca0. arm, vexpress, v2p-ca5s#llarm, vexpress, v2p-cal5 a7. 
vt— HG, arch/arm/boot/dts/exynos4210-origen.dts HY Ht 4A FECA F: 


compatible = "insignal,origen", "samsung,exynos4210", "samsung,exynos4"; 


Fi NPAT EME AF 很 特定 〉， 第 2 个 子 从 串 是 心 片 名 子 〈 比 较 特 定 )， 第 3 个 字段 是 心 厂 系列 
的 名 字 〔 比较 通 用 )。 


作为 类 比 ，arch/arm/boot/dts/exynos4210-universal c210.dts 的 兼容 性 字段 则 如 下 : 


compatible = "samsung,universal C210"; "samsung,exynos4210", "samsung,exynos4"; 


由 此 可 见 ， 它 与 exynos4210-origen.dts 的 区 别 只 在 于 第 1 个 字符 串 〈 特 定 的 板子 名 字 ) 不 一 样 ， 后 面 心 
Fr AA Fr SEL SERT TE. 


在 Linux 2.6 内 核 中 ，ARM Linux 针 对 不 同 的 电路 板 会 建立 由 MACHINE STARTAHIMACHINE END 包 
围 起 来 的 针对 这 个 设备 的 一 系列 回调 函数 ， 如 代码 清单 18.3 所 示 。 


代码 清单 18.3 ARM Linux 2.6 时 代 的 设备 


IMACHINE START (VEAPRESo, VARM-Versatile Express") 

faba OL hse Ox LOO, 

. Smp Smp. opstvexpress Snp Ops), 
MAP 10 vam map io, 

galt ane, Carly Vem mit esrly; 

fe. Ace VID Ae. eG, 


COND OB W P2 


Pe wal (iene &v2m timer, 
handle. arg guo. Nand he Eg, 
9 (ante Machine v2m IN, 
10 Epestert vexpress restart; 


LIMACHINE END 


这 些 不 同 的 设备 会 有 不 同 的 MACHINE ID，Uboot 在 启动 Linux 内 核 时 会 将 MACHINE ID 存放 在 r1 寄 存 
器 ，Linux 启 动 时 会 匹配 Bootloader 传 递 的 MACHINE ID 和 MACHINE START 声 明 的 MACHINE ID， 然 后 执 
行 相应 设备 的 一 系列 初始 化 函数 。 


ARM Linux 3.x 在 引入 设备 树 之 后 ，MACHINE START 变 更 为 DT MACHINE START， 其 中 含有 一 
个 .dt_compat 成 员 ， 用 于 表明 相关 的 设备 与 .dts 中 根 节 点 的 羔 容 属性 兼容 关系 。 如 末 Bootloader 传 递 给 内 核 
的 设备 树 中 根 节 点 的 兼容 属性 出 现在 某 设 备 的 .dt_compat 表 中 ， 相 关 的 设备 就 与 对 应 的 兼容 匹配 ， 从 而 引 
发 这 一 设备 的 一 系列 初始 化 函数 被 执行 。 一 个 典型 的 DT MACHINE 如 代码 清单 18.4 所 示 。 


代码 清单 18.4 ARM Linux 3.x 时 代 的 设备 


直人 
2 "arm, vexpress", 

3 "xen; xenvm"; 

4 NULL 


DOSE 
6DT MACHINE START(VEXPRESS DT, "ARM-Versatile Express") 


J dE COMPAT = Wom dgio mateb 

8 . Smp = Smp ope(vexpress smp Ops), 
P Jap: 9 = WoW Ob Map 10; 
139 DU ean Ly Sem AM. Cary, 
LI (IL: ag = V2 AC- Init Lrg; 
17 .timer = AN m dt trmer, 
UMS: 人 Sm Oe. Ag 
14 handles rrgq -— guo handle rg, 


15 .restart 
l6MACHINE END 


Vexpress reSCtqrt, 


Linux 倡 导 针 对 多 个 SoC、 多 个 电路 板 的 通用 DT 设备 ， 即 一 个 DT 设备 的 .dt_compat 包 含 多 个 电路 板 .dts 
文件 的 根 节点 兼容 属性 字符 串 。 之 后 ， 如 有 果 这 多 个 电路 板 的 初始 化 序列 不 一 样 ， 可 以 通过 int 
of machine is compatible (const char*compat) API 判 断 具 体 的 电路 板 是 什么 。 在 Linux 内 核 中 ， 常 常 使 用 如 
下 API 来 判断 根 节点 的 兼容 性 : 


IND OL mine S "COMmpavLD le (Const clan “oonmnpeot)? 


JCAPUAJIS: H Billie fT ARF BST SOCIIFEATE, ELERE A PRRI. Pill a 
drivers/cpufreq/exynos-cpufreq.c 中 束 有 判断 运行 的 CPU 类 型 是 exynos4210、exynos4212、exynos4412 还 是 
exynos5250 的 代码 ， 进 而 分 列 处 理 ， 如 代码 消 日 18.5 所 示 。 


代码 清单 18.3 of machine is compatible © 的 案例 


lk Statue InbpexVpOS Oputreq prope(sStruct platrorm device *pdev) 

ZH 

3 int ret.  -EINVAL. 

4 

2) exynos- 10o -kzalLoc(tcsrvzeoL(^exynos. DIO); :OFP NEENED); 

6 II pHexvnos Inte) 

j, return -ENOMEM; 

8 

9 exynos: xHfo-sdev- = pdv dov? 

10 

LF if (of machine is compatible ("samsung,exynos4210")) | 

12 exynos JInio-^type = EXYNOS- SOC 4210; 

L3 Pet = exynos4210 -cpusreq. :nrit(exynos Info); 

14 } else TE (for machine 39 compatzDle(" samsung,exynos4212T7)) 4 
LS exynos Info-sLype = EXYNOS 906 4212; 

16 rel = eéxynos4xl2 cpubreq nrt(exynos ante); 

TA |j else Lf (Ob machine 2e compatible(" samsung,exynos4412")) 4 
ie exynos info->type = EXYNOS SOC 4412; 

19 rer = Cx ynostxl 2 OGDulbeg Inir (Exynos 1n tO) 
ZO POLS xr Of machine: xe Compavible ("samsung,exyn0s5250"").)-. 4 
Zk esy noe qmNLO*Lype = Per NOs O00 5250; 
22 POL c OxvVIOSo290 cpusreg cnoü(exynos Smeg) 
ZS } else { 
24 pr err("%Ss: Unknown SoC typen"; — func ); 
vas return -ENODEV; 
26 } 
24 
28] 


WR PGR LE BP NR. PUI T BUIBIAPTREUTR TBS HE 4 compatible="samsung, 


universal c210"，"samsung，exynos4210"，"samsung，exynos4" 的 情况 ， 如 下 3 个 表达 式 都 是 成 立 的 。 


of machzne rs compatible(" samsung,unrversael c210'") 
of machine is compatible ("samsung,exynos4210") 
of machine is compatible ("samsung,exynos4") 


18.2.3 We WAAL 


在 .dts 文 件 的 每 个 设备 节点 中 ， 都 有 一 个 兼容 属性 ， 兼 容 属 性 用 于 驱动 和 设备 的 绑 定 。 兼 容 属 性 是 一 
个 字符 串 的 列表 ， 列 表 中 的 第 一 个 字符 串 表 征 了 节点 代表 的 确切 设备 ， 形 式 为 "<manufacturer>， 
<model>"， 其 后 的 字符 串 表 征 可 莱 容 的 其 他 设备 。 可 以 说 前 面 的 是 特 指 ， 后 面 的 则 涵盖 更 广 的 范围 。 如 在 
vexpress-v2m.dtsiF #JFlash i Ei Ph: 


flash@0,00000000 { 
compatible = "arm,vexpress-flash", "cfi-flash"; 
reg = <0 Ox00000000 Ox04000000>, 
«1 0x00000000 0x04000000»; 
bank-width = «4»; 
); 


He A ES PE] 2S2 F RR "cfi-flash" HH w ELS 14 5E E "arm, vexpress-flash" Yk zi HJ yo; Hal HE 


FRG, Freescale MPC8349SoC 含 一 个 串口 设备 ， 它 实现 了 国家 半导体 (National Sem-iconductor) 的 
NS165508 ante. WIMPCS83497R Fw WY Ht J ME Acompatible="fsl, mpc8349-uart", "ns16550". H 
中 ， 代 1]，mpc8349-uart 指 代 了 确切 的 设备 ，ns165$5$0 代 表 该 设备 与 NS16$$0UART 保 持 了 寄存 器 兼容 。 
IE, WC A ASRS PE AAS SRE EY, ei ee“ A AS BI FH AR” 


MARA a, SX te 2S dts PHAN A ETUC AC, Mite ake) probe O 函数 执行 。 对 于 
platform drive ti zi, mÆ AOFI, GAT ICH dtsxceF "acme, al234-i2c-bus" 3E RIA CH Hill AS 
KAHJOFULBUZE, ASR EIS. PTS. 


代码 清单 18.6 ”platform 议 备 张 动 中 的 of match table 


lsStatrc Const. sLruce ol device Xd alzo4.12¢ Ol maven|). —-1 
2 { .compatible = "acme,al234-12c-bus", }, 

S {}, 

4}; 

SMODULE DEVICE TABLE(of, a1234 12c of match); 

6 

LSLQUEO SLPUOL placrorm driver 12¢ @l7o4 driver = i 


8 .driver = { 

9 name = "al234-i2c-bus", 
10 .owner = THIS MODULE, 
L1 SOIT Match table = alz24 120 Of match, 
12 by 
als: probe = 12€ al234- probe, 

14 .remove = i2c a1234 remove, 

Loj; 


lomodule platform driver(i2c al1234 driver); 


对 于 FC 和 SPI 从 设备 而 言 ， 同 样 也 可 以 通过 of match table 添 加 匹配 的 .dts 中 的 相关 节点 的 兼容 属性 ， 
如 Sound/soc/codecs/wm8753.c 中 的 针对 WolfonWM8753 的 of match table， 有 具体 如 代码 请 单 18.7 所 示 。 


代码 清单 18.7 IfC、SPI 设 备 驱 动 中 的 of match table 


lStatrio Const. SLEUCL OL. device Ld Wine/ > or marcii] = 4 


2 { .compatible = "wlf,wm8753", }, 
3 b 3 


4}; 

5MODULE DEVICE TABLE (of, wm8753 of match); 

OS CaCI SULUCl Spr driver wel) -SPL driver = 4 
T .driver = { 

8 . name = TUIDOY o 

9 Owner = THIS MODULE, 

10 ,OL Mauch table -= wmod09 UI match, 
11 } 

12 . probe = WMO 753. Spl probe, 
To .remove = wIMO79523 Spr remove; 
Tayy 

EOSCALEC Steuet LZ2C Cryer NMOL o -120 9] = if 
16 .driver = { 

17 .name = "wm8753", 

18 ,owner = THIS, MODULE, 

19 OI Mauch Cable = wmo oo OI match, 
20 by 
21 .probe = winoJ52- 126 Probe; 
22 .remove = WMG TO2 ALO remove, 
2 (ud Leable = “wie lod 12€ 10, 
24} 


上 述 代码 中 的 第 2 行 显示 WM8753 的 供应 了 商 是 “wlf?， 它 其 实 是 对 应 于 Wolfson Microe-lectronicsit Bi 2& - 
详细 的 前 级 可 见于 内 核 文 档 : Documentation/devicetree/bindings/vendor-prefixes.txt 


对 于 CC、SPI 还 有 一 点 需要 提醒 的 是 ，I*C 和 SPI 外 设 驱 动 和 设备 树 中 设备 节点 的 兼容 属性 还 有 一 种 弱 
式 下 配方 法 ， 束 是“ 别名 ” 罗 配 。 羔 容 必 性 的 组 织 形式 为 <manufacturer>，<model>， 列 名 其 实 束 是 去 挥 羔 容 
属性 中 manufacturer 表 级 后 的 <model> 部 分 。 关 于 这 一 点 ， 可 但 看 drivers/spi/spi.e 的 源 代 人 码 ， 孙 数 
spi match device O 雄 嚣 了 更 多 的 细 市 ， 如 果 列 名 出 现在 设备 spi_driver 的 id_table 里 面 ， 或 者 别名 与 
spi_driver 的 name 字 段 相 同 ，SPI 设 备 和 张 动 都 可 以 匹配 上 ， 代 码 清单 18.8 显 示 了 SPI 的 别名 匹配 。 


代码 清单 18.8 SPI 的 别名 匹配 


ISDQgUIC Fit Spi. maron device (Seruce device “dev; rrace device driver “dry) 


Z{ 

S CONnSLt Cruce Spi device: “sp, = LO: Spr device(tdev)s 

4 CONSE GUBIOL Spi -Oriver “sory = TO GPL OITVerddrv); 
5 

6 /* Attempt an OF style match */ 

1 JL (On cdrrver Macchi ee OE 

8 return 1; 

9 

10 [Jv “Met. dS ACPI “ky 

Er IL Sopa driver meteb.devroicetdev, uecrv) 

12 return 1; 

E3 

14 pi (Odiya Td cable) 

15 Perur Sot Maren. q0(0sdrsvesrag “cable, EE 
1.6 

slay return strcmp(í(spi-»modalias, drv->name) == 

ike Ap. 

l9SbgUric CONSE SErUCE ‘Spl device ad. “Spi. mebtch ddiconsu true SDI gdewLcoe "Lo "5-3, 
20 CONS S Cruce SPL- device’ “sdew) 
PAE 
2d while (id->name[0]) { 
2. if (!strcmp (sdev->modalias, id-»name)) 
24 return id; 
Zo Laat; 
26 } 
2 return NULL; 
20} 


通过 这 个 别名 匹配 ， 实 际 上 ，SPI 和 IC 的 外 设 驱 动 即使 没有 of_ match table， 还 是 可 以 和 设备 树 中 的 节 
点 匹配 上 的 。 


一 个 驱动 可 以 在 of match table 中 羔 容 多 个 设备 ， 在 Linux 内 核 中 和 常 当 使 用 如 下 API 来 判断 有 具体 的 设备 


ATA 


Ink Of device s compavtible(const “struct device. node *gevice,const char *Compat); 


JE BRI SU T HIST c. A EN AR AS Ds VE ce aL compat 4E S] PE FR». ICT APTE HIT — 71 ISI Sc 
个 以 上 设备 的 时 候 。 


当 一 个 驱动 文 持 两 个 或 多 个 设备 的 时 候 ， 这 些 不 同 .dts 文 件 中 设备 的 兼容 属性 都 会 写 入 驱动 OF 匹配 
表 。 因 此 张 动 可 以 通过 Bootloader 传 递 给 内 核 设 备 树 中 的 真正 节点 的 兼容 属性 以 确定 究竟 是 哪 一 种 设备 ， 
从 而 根据 不 同 的 设备 类 型 进行 不 同 的 处 理 。 如 arch/powerpc/platforms/83xx/usb.c 中 的 mpc831x usb cfg ©) 
WIT J RIAR: 


rr. (immer node &e (Or .device 19 compatable(:mmr mode, "rsSLompooolo-rzmmre-)- l 
Qr device- rs conmpatribletrimmr node. '"ISl,mpoos09-c:mmr^*)3 
CGlrsetDrits- beé32 (rmmap c MPCBOSXAX.SCCOR OFFS; 
MPCOOSIS 5CCR USB MASK, 
MPCS515 SCCR USB .DRCM. 01); 


else 
Glrsetrbits. Dpes2(trmuap + :MPOSSXX CCCR OPES, 
MPCOSXX SCCR USB: MASK, 
MEPOCSORAX DCCR USB DBCM hi) 
Tr QOonmtzgudee prm mux ctor UEP is. Where: X Do pem mc. Bor UTMI S7 
Lr (prop we tstremp (prop, ulpan] 4 
LL. (Ot. device. cs ‘compact ble (immer node, "Esl -~mpce306=1mmr)) 4 


clrsecbits beo2timmap -MPOOSAX OICORH OEES; 
MPC8308 SICRH USB MASK, 
MPC8308 SICRH USB ULPI); 

] else mr QUI devica 5 COPA LO e(n mode; "Pss mpocooslo-xmmp*g s 
clrsetbits bes2(xmmdp bWMPCOSAXX SICRE OFFS, 
MPC8315 SICRL USB MASK, 
MPC8315 SICRL USB ULPI); 

clrsetbsts Deo2(rmmadp 4 MPCOSAX SIOBR OEES, 
MPC8315 SICRH USB MASK, 
MPC8315 SICRH USB ULPI); 

} else { 

ClESetbires:.bes2. (ammap- MEG SX SICRE ORFS, 
MPC831X SICRL USB MASK, 
MPC831X SICRL USB ULPI); 

GLISetbribs be rma b MPCOOAX OICORH OREO, 
MPC831X SICRH USB MASK, 
MPC831X SICRH USB ULPI); 


它 根据 具体 的 设备 是 人 ll，mpc8315-immr 和 全 1，mpc8308-immr、 中 的 哪 一 种 来 进行 不 同 的 处 理 。 


当 一 个 驱动 可 以 兼容 多 种 设备 的 时 候 ， 除 了 of device is compatible © 这 种 判断 方法 以 外 ， 还 可 以 采 
用 在 驱动 的 of_device id 表 中 填充 .data 成 员 的 形式 。 壁 如，arch/arn/mmy/cache-12x0.c 文 持 “arm，1210- 
cache”arm，pl310-cache”arm，1220-cache”* 等 多 种 设备 ， 其 of device id 表 如 代码 清单 18.9 所 示 。 


代码 清单 18.9 ”支持 多 个 兼容 性 以 及 .data 成 员 的 of device id 


NE ZC IDinsme, he) d «cONpestiole = name, ddata = (void *)erns: } 
Zotat cOOnoucSLpuct ob Cevice ng 1220 2s . In ceoneu = y 
3 hzc. DA armel2l)gsceche'". uu 1290210. data); 
Lec IDCTarmelbaspecacheWw, qr 1290220 data 
2 GAC- TD (mL LIne E LOSU daba 
6 区 人 


~ 


2 


8 ZC ID("mMarvell, aurora-system-Cacne”, OL aurora ho Ouver daca), 


9 Lec ID(UMarvell,vtauros»-cache'", Of Lauros2 daca), 
10 /* Deprecated IDs */ 
11 L2G IDi"DOHDONilosles2plobLU-ocgchne" . or Dom. LAKU cata), 
I2 { } 
TS: 


在 张 动 中 ， 通 过 如 代码 请 单 18.10 的 方法 拿 到 了 对 应 于 L2 绥 人 存 关 型 的 .data 成 员 ， 其 中 主要 用 到 了 


of match node () 这 个 API。 


代码 清单 18.10 ”通过 of match node ©) 找到 .data 


Line — init 2x0 of 1nit{u32 aux val; U32 aux mask) 
24 

3 CODSD serucl. AC UNE Gata. “Caca, 

4 Strucc device mode “np; 

S 

6 np = of find matching node(NULL, 12x0 ids); 
7 if (!np) 

8 return -ENODEV; 

9 » 
10 data = ‘Or March modetl2x0 de; Bp)-odgdte; 
11} 


如 果 电 路 板 的 .dts 文 件 中 L2 组 存 是 arm，pl310-cache， 那 么 上 述 代 码 第 10 行 找到 的 data 就 是 
of 12c310 data， 它 是]2c_init _ data 结构 体 的 一 个 实例 。12c_init data 十 一 个 由 L2 绥 人 存 驱 动 目 定义 的 数据 结 
构 ， 在 其 定义 中 既 可 以 体 护 数据 成 员 ， 叉 可 以 包 侣 函数 指针 ， 如 代 但 清单 18.11 所 示 。 


代码 清单 18.11 与 兼容 对 应 的 特定 data 实 例 


LStruce 126 anit. data | 


2 const char *type; 

3 unsigned way size 0; 

4 unsigned num lock; 

5 void (ot parse) (Conse. Struce, device node v, Woz * uoz ^)7 

6 vöid (*enable)(vord . lomem *, u52, unsigned); 

q vord (*Lixup) (void .. 10mem ~=; u22, SUEUcL Oucer Cache [N9 ^); 
8 vord (*save) (void _ iomem *); 

d Stfuct Outer Cache INS outer Cache; 
10}; 


HH IA, SRS A) WF SRT EEA ALA BE PRORATED 5E AS 
TH, Ww Kaif, elseaka4switch, casei). 


18.2.4 WAT ANK labellf tit 44 


Af H18.28.dtsv-tErB, TR kx" HJepus TH £a TALES Pj cpud r TA., di See ERA 
个 CPPU， 并 且 两 者 的 兼容 属性 为 : "arm，cortex-a9"。 


注音 cpus 和 cpus 的 两 个 cpu 子 市 点 的 命名 ， 它 们 巡 循 的 组 织 形式 为 <name>[@<unit-address>]， 过 中 的 内 
容 是 必 选 项 ，[] 中 的 则 为 可 选项 。name 是 一 个 ASCII 字 符 串 ， 用 于 描述 节点 对 应 的 设备 类 型 ， 如 3com 
Ethernet 适 配 需 对 应 的 节点 name 宜 为 ethernet， 而 不 是 3com5$09。 如 果 一 个 币 点 摘 述 的 设备 有 地 址 ， 则 应 广 
给 出 @unitraddress。 多 个 相同 类 型 设备 节点 的 name 可 以 一 样 ， 只 要 unit-address 不 同 即 可 ， 如 本 例 中 含有 
cpuQ@0、cpu@1 以 及 serial@101f0000 与 serial@101P2000 这 样 的 同名 节点 。 设 备 的 unitraddress 地 址 也 经 第 在 
其 对 应 节点 的 reg 属 性 中 给 出 。 


对 于 挂 在 内 存 衬 间 的 设备 而 言 ，@@ 字 符 后 跟 的 一 般 驶 是 该 设备 在 内 存 空间 的 基地 址 ， 璧 如 
arch/arm/boot/dts/exynos4210.dtsi 中 存在 的 : 


sysram(02020000 { 
compatible = "mmio-sram"; 
reg = «0x02020000 0x20000»; 


ERT regs MER TP 4547 E55 @ Je T HE — Fo 


对 于 挂 在 FC 总 线 上 的 外 设 而 言 ，@ 后 面 一 般 跟 的 是 从 设备 的 CC 地 址 ， 璧 如 
arch/arm/boot/dts/exynos42 1 0-trats.dtsF H‘Jmms114-touchscreen: 


126613890000" { 


mms1l14-touchscreen@48 { 
compatible = "melfas,mms114"; 
reg = «0x48»; 


上 述 节点 的 reg 属 性 标示 的 CC 从 地 址 与 @ 后 面 的 地 址 一 样 。 


具体 的 节点 命名 规范 可 见 ePAPR (embedded Power Architecture Platform Reference) 标准 ， 


在 https:/www.powerorg 中 可 下 载 该 标准 。 


我 们 还 可 以 给 一 个 设备 节点 添加 label， 之 后 可 以 通过 &label 的 形式 访问 这 个 label， 这 种 引用 是 通过 


phandle (pointer handle) 进行 的 。 


例如 ， 在 arch/arnyboot/dts/omapS$.dtsi 中 ， 第 3 组 GPIO 有 gpio3 这 个 label， 如 代码 清单 18.12 所 示 。 


代码 清单 18.12 在 设备 树 中 定义 label 


lgpio3: gpioG48057000 { 

compatible = "ti,omap4-gpio"; 

reg = «0x48057000 0x200»; 

interrupts - «GIC SPI 31 IRQ TYPE LEVEL HIGH»; 
ti,hwmods = "gpio3"; 

qoloecontroller; 

#Qpio-cells = «2»; 

interrüupt-controller; 

finterrupt-cells = «2»; 


Ow CO —10) O1 4 W 和 


| 


而 hsusb2 phy 这 个 USB 的 PHY 复 位 GPIO 用 的 是 这 组 GPIO 中 的 一 个 ， 所 以 它 通 过 phandle 引 用 
了 “gpio3”， 如 代码 清单 18.13 所 示 。 


代 人 码 清 单 18.13 ”通过 phandle 引 用 其 他 节点 


1/* HS USB Host PHY om PORT 2 */ 
ensusb2 phys nsusb2 phy 4 


3 compatible - "usb-nop-xceiv"; 
4 reset-gpios = <&gpio3 12 GPIO ACTIVE LOW>; /* gpio3 76 HUB RESET */ 
2j; 


A iE 818.1228 147 HJgpio3  gpi0@48057000 1 zx Hlabel, MARIA 4418.13Hhsusb2_ phy 则 通过 
&gpio3 引 用 了 这 个 节点 ， 表 明 自 己 要 使 用 这 一 组 GPIO 中 的 第 12 个 GPIO。 很 显然 ， 这 种 phandle 引 用 其 实 表 
明 便 件 之 间 的 一 种 天 联 性 。 


再 举 一 例 ， 在 arch/arm/boot/dts/omap5.dtsi 中 ， 我 们 可 以 看 到 类 似 如 下 的 label， 从 这 些 实例 可 以 看 出 ， 
label 习 惯 以 < 设备 类 型 ><index> 进 行 命名 : 
12013. 1208495070000 1 
M i2c@48072000 { 


1203: 1208458060000 | 
属 


读者 也 许 发 现 了 一 个 奇怪 的 现象 ， 束 是 代码 清单 18.13 中 居然 引用 了 GPIO_ACTIVE LOW 这 个 类 似 C 
语言 的 宏 。 文 件 .dts 的 编译 过 程 确实 支持 C 的 预 处 理 ， 相 应 的 .dts 文 件 也 包括 了 包含 GPIO_ACTIVE_LOW 这 
个 宏 定 义 的 头 文 件 : 


#include <dt-bindings/gpio/gpio.h> 


对 于 ARM 而 言 ，dt-bindings 尖 文件 位 于 内 核 的 arch/arm/boot/dts/include/dt-bindings 目 录 中 。 观 察 该 目录 
的 属性 ， 它 实际 上 是 一 个 符号 链接 : 


baohua8baohua-VirtualBox:-/develop/linux/arch/arm/boot/dts/include$ ls -1 dt- 
bindings 

lrwxrwxrwx 1 baohua baohua 34 11H 28 00:16 dt-bindings -> ../../../../../ 
include/dt-bindings 


从 内 核 的 Scripts/Makefile.lib 这 个 文件 可 以 看 出 ， 文 件 .dts 的 编 详 过 程 确实 是 文 持 C 了 预 处 理 的 。 


se 
S(O]; ELeS ly scpPXpES/ QUO db .sO dED =O $9.5 9 X 
=i. S(dir $<) (DTC FLAGS): X 
=d S(deori le) vdiesime: (tate tm x X 
sat S(deprtile).pre.tmp: o(deortls)ggbeump.i S(depiris se) 


它 是 先 做 了 $ CCPP) $ Cdtc cpp flags) -x assembler-with-cpp-o$ (dtc-tmp) $<， 有 再 做 的 .dtc 编 译 。 


18.2.5 ”地址 编码 


可 寻 址 的 设备 使 用 如 下 信息 在 设备 树 中 编码 地 址 信息 : 


reg 
#address-cells 
#Ssize-cells 


其 中 ，reg 的 组 织 形 式 为 regs=<addressllength1[address2length2][address3length3]...>， 其 中 的 每 一 组 
address length 表 明了 设备 使 用 的 一 个 地 址 范围 。address 为 1 个 或 多 个 32 位 的 整 型 〈 即 cell) ， 而 length 的 意义 
则 但 味 厦 从 address 到 address+length-1 的 地 址 苑 围 都 属于 该 节点 。 和 在 因 jize-cells=0， 则 length 字 段 为 衬 。 


address 和 ]length 字 段 是 可 变 长 的 ， 父 节点 的 #address-cells 和 因 ize-cells 分 别 诀 定 了 子 节 点 reg 属 性 的 
address #l length Et HJ FE . 


在 代码 清单 18.2 中 ， 根 节点 的 #address-cells=<1>; 和 #size-cells=<1>; 决定 了 serial、gpio、spi 等 节点 的 
address 和 length 字 段 的 长 上 度 分 别 为 1。 


cpus 3 £4 HJ#address-cells=<1>; 和 #size-cells=<0>; 决定 了 两 个 cpu 子 市 点 的 address 为 1， 而 length 为 
空 ， 于 是 形成 了 两 个 cpu 的 reg=<0>; 和 reg=<1>; . 


external-bus 1i £3 HJ#address-cells=<2>#ll#size-cells=<1>; 决定 了 其 下 的 ethernet、i2c、flash 的 reg 字 段 形 
如 res=<0 0 0x1000>; . reg=<1 0 0x1000>; 和 reg=<2 0 0x4000000>; 。 其 中 ，address 字 段 长 度 为 2， 开 始 
的 第 一 个 cel《〈“ 即 “< ”后 的 0、1、2) 是 对 应 的 厂 选 ， 第 2 个 cell〈 即 <0 0 0x1000>、<1 0 0x1000> 和 <2 0 
0x1000000>F IANO, 0, 00 是 相对 该 厂 选 的 基地 址 ， 第 3 个 cell( 即 >” 前 的 0x1000、0x1000、 
0x1000000) 为 length。 


特别 要 留意 的 是 i2c 节 点 中 定义 的 #address-cells=<1>; 和 加 size-cells=<0>，， 其 作用 到 了 IC 总 线 上 连接 


的 RTC， 它 的 address 字 段 为 0x$8， 是 RTC 设 备 的 EC 地 址 。 


根 节 点 的 直接 子 书 点 摘 述 的 是 CPU 的 视图 ， 因 此 根子 节点 的 address 区 域 承 和 直接 位 于 CPU 的 内 存 区 域 。 
但 是 ， 经 过 总 线 桥 后 的 address 往 往 需 要 经 过 转换 才能 对 应 CPU 的 内 存 蜗 射 。external-bus 的 ranges 属 性 定义 
了 经 过 external-bus 桥 后 的 地 址 范围 如 何 映 射 到 CPU 的 内 存 区 工 。 


ranges = «00 0x10100000 0x10000 /7 Chipselect 1, Ethernet 
10 0x10160000 0x10000 /7 Chnipselect 2, 720 controller 
20 0x30000000 0x1000000»; // Chipselect 3, NOR Flash 


ranges 是 地 址 转换 表 ， 其 中 的 每 个 项 目 是 一 个 子 地 址 、 父 地 址 以 及 在 子 地 址 空间 的 大 小 的 映射 。 映 射 
表 中 的 子 地 址 、 父 地 址 分 别 采 用 子 地 址 空间 的 #address-cells 和 父 地 址 空间 的 #address-cells 大 小 。 对 于 本 例 


而 言 ， 子 地 址 空间 的 #address-cells 为 2， 父 地 址 空间 的 #address-cells 值 为 1， 因 此 000x101000000x10000 的 前 
2 个 cell 为 external-bus 桥 后 external-bus 上 刻 选 0 偏 移 0， 第 3 个 cell 表 示 external-bus 上 片 选 0 偏 移 0 的 地 址 空间 被 
映射 到 CPU 的 本 地 总 线 的 0x10100000 人 位置， 第 4 个 cell 表 示 映 射 的 大 小 为 0x10000。tranges 后 面 两 个 项 目的 

含义 可 以 类 推 。 


18.2.6 中断 连接 
设备 树 中 还 可 以 包含 中 断 连 接 信 息 ， 对 于 中 断 控制 右 而 言 ， 它 提供 如 下 属性 : 
interrupt-controller- 这 个 属性 为 衬 ， 中 断 控 制 右 应 该 加 上 此 属性 表明 上 自己 的 号 份 ; 


#interrupt-cells 一 与 #address-cells 和 #size-cells 相 似 ， 它 表明 连接 此 中 断 控 制 右 的 议 备 的 中 断 属 性 的 cell 大 


小 。 
在 整个 设备 树 中 ， 与 中 断 相 关 的 属性 还 包括 : 


interrupt-parent- ix $& T E338 x. E ok d8 € E PTKPR I] rd RH Jphandle, 2575 AA J8 E interrupt- 
parent}, MAKETT AAR. OPA CINBSISSREISOO 而 言 ， 根 节点 指定 了 interrupt-parent= 
«&intc^; ， 其 对 应 于 intc: interrupt-controller)10140000, MIRE ART E AFRI xEinterrupt-parent; 
此 它们 都 继承 了 intc， 即 位 于 0x10140000 的 中 断 控 制 器 中 。 


interrupts- 用 到 了 中 断 的 设备 节点 ， 通 过 它 指 定 中 断 写 、 触 用 方法 等 ， 这 个 属性 有 具体 含有 多 少 个 cell， 
FH HK A ES FE rd lue p A#interrupt-cells VERE. BE Scell AA METAG XM, 一般 由 驱动 的 实现 
决定 ， 而 且 也 会 在 设备 树 的 绑 定 文档 中 说 明 。 辟 如， 对 于 ARM GIC 中 断 控 制 器 而 言 ，#interrupt-cells 为 3， 
3 个 cell 的 具体 含义 在 Documentation/devicetree/bindings/arm/gic.txt 中 束 有 如 下 文字 说 明 : 


The 1st cell is the interrupt type; O for SPI interrupts, 1 for PPI 


interrupts. 
The 2nd cell contains the interrupt number for the interrupt type. 
SPI interrupts are in the range [0-987]. PPI interrupts are in the 


range [0-15]. 
The 3rd cell is the flags, encoded as follows: 
bits[3:0] trigger type and level flags. 
1 = low-to-high edge triggered 
high-to-low edge triggered 
active high level-sensitive 
— active low level-sensitive 
bits[15:8] PPI interrupt cpu mask. Each bit corresponds to each of 
the 8 possible cpus attached to the GIC. A bit set to '1' indicated 
the interrupt is wired to that CPU. Only valid for PPI interrupts. 


2 
4 
8 


另外 ， 值 得 注意 的 是 ， 一 个 设备 还 可 能 用 到 多 个 中 断 号 。 对 于 ARM GIC 而 言 ， 知 某 设备 使 用 了 SPI 的 
168 号 、169 号 两 个 中 断 ， 而 且 都 是 高 电 平 触发 ， 则 该 设备 节点 的 中 断 属性 可 定义 为 interrupts=<01684>， 
<01694>; 。 


对 于 平台 设备 而 言 ， 简 单 的 通过 如 下 API 融 可 以 指定 想 取 哪 一 个 中 断 ， 其 中 的 参数 num 珊 是 中 断 的 


index. 


Le. platform get 1xrgistruct platform device *dev, unsigned nt tum); 


HIE .dts X PE rj n] EAS] P AETA, Ies CESK eg Faw platform get irq byname O 来 获取 对 应 的 


RAS BEüp fg E IS.14T87R I fEdrivers/dma/fsl-edma.c FM i platform get irq byname ©) 获取 IRQ， 
LJ, X arch/arm/boot/dts/vf6 1 0.dtsi-Ej fsl-edmaJk a) Xt PY Tr i HJ FB FIA o 


代 人 担 清 单 18.14 AR P HI UR Br BK EAR DR] SR EDU BT 


lotari INC 
人 


ad 

4 rel CdMa=-t xorg eUplatrorm Ger LEa Dysame(pdewv, “ecm Tr) 
5 Lsl Sdmas -Sr ird — 'plavrorm.get rq Dyname(pdey, "eduea-err")s 
6 } 

7 

SedmaQ: dma-controller@40018000 { 

9 #dma-cells = <2>; 
FO compatible = "fsl,vfol0-edma"; 
LE reg = <0x40018000 0x2000>, 
12 «0x40024000 0x1000», 
13 <0x40025000 0x1000>; 
14 interrupts = <0 8 IRO TYPE LEVEL HIGH», 
15 «0 9 IRQ TYPE LEVEL HIGH»; 
16 interrupt-names - "edma-tx", "edma-err"; 

LA dma-channels = <32>; 

18 clock-names = "dmamux0", "dmamuxl"; 

19 Clocks’ = <é¢lks VEOGIU CLE DMAMUXO>; 
20 «&clks VF610 CLK DMAMUX1>; 
2L? 


第 4 行 、 第 $ 行 的 platform_ get irq byname () 的 第 2 个 参数 与 .dts 中 的 interrupt-names 是 一 致 的 。 


18.2.7 GPIO、 时 钟 、pinmux 连 接 


除了 中 断 以 外 ， 


1.GPIO 


壁 如 ， 对 于 GPIO 控 制 器 
壁 如 ， 对 于 兼容 性 为 人 G1，imx28-pinctrl 的 pinctrl 驱 动 而 言 ， 其 GPIO 控 制 器 


^, 


prnctrl850018000 d 
compatible = 
reg = «0x80018000 2000»; 
gqpro0s: gprogOo { 
compatible - 
interrupts = «127»; 
GoLO=-ControlLler; 
#gpio-cells 
interrupt-controller; 


在 ARM Linux Htet, GPIO, pinmux# n] bli 


"rsl; LMKZO=pDLnCcrL”, 


过 .dts 中 的 节点 和 属性 进 


而 言 ， 其 对 应 的 设备 节点 需 声 明 gpio-controller 必 性， 并 设置 #epio-cells 的 大 


的 设备 和 点 闫 似 于 : 


"simple-bus"; 


"ESL TiO phos 


= <2>; 


#interrupt-cells = <2>; 


); 
gpiol: 
compatible - 
interrupts = «1260»; 
gilo“ Controller; 
#gpio-cells 
interrupt-controller; 


gpio@l { 


"ISLxix29-9gposo's 


= «2»; 


#interrupt-cells = «2»; 


ia 


其 中 ，#gpio- 
时 候 则 是 低 电 平 有 效 。 


使 用 GPIO 的 设备 则 通 


sdhci@c8000400 { 
status "okay"; 
cd-gpros = «s&gpio0l 0>; 
Wp-gpios = «&gpio02 0»; 
power-gpios = «&gpio03 0»; 
bus-width «4»; 
); 


而 具体 的 设备 驱动 则 通 


cells 为 2， 第 


1 个 cell 为 GPIO 号 ， 第 2 个 为 GPIO 的 极 性 。 为 0 的 时 候 是 高 电 平 有 效 ， 为 1 的 


X. fin 4 xxx-gpios/& ER 5| H GPIOT2 Bl 23H] de 3 eau. Un: 


过 类 似 如 下 的 方法 来 获取 GPIO: 


od gplo = Of get named op10 (ney. "od-gprnos'". UJ; 
WD Sgpio = or get named gpLO(Qp, "wp-gplos",. U)? 
power gpio = Of get named gpioinp, "power-gpios", 0); 


of get named gpio () 3 


这 个 API 的 原型 如 下 : 


Static inline int of get named gprö (struct device node “np; 


const char *propname, 


在 .dts 和 设备 驱动 不 关心 GPIO 名 字 的 情况 下 ， 


int index); 


也 可 以 直接 通过 of get gpio O 3XHXGPIO, JE pR 2 Jg 763 


Static inline int ort get gpio (struct device node “np, ant index); 


如 对 于 compatible="gpio-control-nand" 的 基于 GPIO 的 NAND 控 制 占 而 言 ， 在 .dts 中 会 定义 多 个 gpio 属 
性 : 


gpio-nand@1,0O 1 

compatible = "gorio-control-nand"; 

reg = «1 0x0000 0x2»; 
faddress-cells = «1»; 
#size-cells = «1»; 


gpios = <&banka 1 0 [* dy 7 
thanka: 2 0 /* nce */ 
&banka 3.0 /* ale */ 
&banka 4 0 Pe pe $y 
0 1 Dp TA 


partitionQGO { 


Ve 


TEAK YAY SK Ri drivers/mtd/nand/gpio.cH Z& IX FE 3X AIX LEGPION: 


piste gpio ray 
plat-»gpio nce 
plat-»gpio ale 
plabecgpio Ole 
plat->gpio nwp 


Of get Sgprofdev-^or node, 
Of get gprloTtdev--or node, 
of get gprio(deve»or node; 
E ( 
= ( 


of get gpao(deve^otf node; 
OL get ge mode, 


Aa LO RBS [e 
~Ne Ne ~Ne ~Ne ~Ne 


2. 时 钟 
时 钟 和 GPIO 也 是 类 似 的 ， 时 钟 控制 桥 的 节点 饭 使 用 时 钟 的 模块 引用 : 


clocks = «&clks 138>, «&clks 140>, «&clks 141»; 
clock-names = "uart", "general", "noc"; 


而 驱动 中 则 使 用 上 述 的 clock-names 属 性 作为 clk_get O 或 devm clk get O 的 第 二 个 参数 来 申请 时 钟 ， 璧 
如 获取 第 2 个 时 钟 : 


[I 


devm clk get(&pdev-»dev, "general"); 


«&clks 138> 里 的 138 这 个 index 是 与 相应 时 钟 驱动 中 clk 的 表 的 顺序 对 应 的 ， 很 多 开发 者 也 认为 这 种 数 
字 出 现在 设备 树 中 不 太 好 ， 因 此 他 们 把 clk 的 index 作 为 宏 定 义 到 了 arch/arm/boot/dts/include/dt-bindings/clock 
中 。 壁 如 include/dt-bindings/clock/imx6qdl-clock.h 中 存在 这 样 的 宏 : 


#define IMX6QDL CLK STEP 16 
#define IMX6QDL CLK PLL1 SW Dy. 
#define IMX6QDL CLK ARM 104.. 


而 archy/arnmyboot/dts/imx6q.dtsi 则 是 这 样 引 用 它们 的 : 


clocks 
«&clks 
«&clks 
«&clks 
«&clks 


- «&clks IMX6QDL CLK ARM», 
IMX6QDL CLK PLL2 PFD2 396M», 
IMX6QDL CLK STEP», 
IMX6QDL CLK PLL1 SW», 
IMX6QDL CLK PLL1 SYS»; 


3.pinmux 


TEE REP pn. AI BC TH RAS HI TI pinmux Hy 5| AVE 2828 


过 phandle 来 指定 的 。 


壁 如 在 


arch/arm/boot/dts/atlas6.dtsiHJpinctrl 证 点 中 包含 所 有 引 肢 群 的 摘 述 ， 如 代 公 清单 18.15 所 示 。 


代码 清单 18.1$ ”设备 树 中 pinctrl 控 制 占 的 引 脚 群 


Lgpio? pinctrbhsb0120000. 4 

2 #gpio-cells = «2»; 

3 finterrupt-cells = <2>; 

4 compatible = "sirr,atlaso-pinctrl"; 

E 

6 

7 Lod l6pzns a: 200080. 1 

8 led 4 

9 Siri Pins = “led L0DIDLSgrp" 
LU SIIT UnC Clon = uod 1IG0ICAT; 
Ll ); 

12 a 

1.3 T 

14 SDIU pins ay Spzog 1 

to Spi { 

1:0 sirf,pins = "spi0grp"; 
1.3 giri IUuHCLION = -UspiD'"' 
18 } 7 

19 } 7 
20 spil pins a: spil@o { 
ZA. Spi { 
22 Siri,oins. = “Sspoiloro": 
23 SIFITUDnctlon = “soil”? 
24 } 
25 } 
20 
2 


而 SPI0 这 个 便 件 实际 上 需要 用 到 spi0_pins axIMHJspiOgrpix —2H 5|, litt fEatlas6-evb.dts Fini 


pinctrl-0 引 用 了 它 ， 如 代码 清单 18.16 所 示 。 


代码 清单 18.16 ”给 设备 节点 指定 引 脚 群 


1 spi@b00d0000 { 

2 status = "okay"; 

G pinctrl-names = "default"; 
4 和 
5 " 

6]; 


到 目击 为 止 ， 我 们 可 以 义 勒 出 一 个 设备 树 的 全 局 视图 ， 


及 phandle 守 信息。 


图 18.2 显 示 了 设备 树 中 的 节点 、 属 性 、1label 愉 


节点 名 
单元 地 址 





图 18.2 ”设备 树 的 全 景 视 图 


18.3 ”由 设备 树 引 发 的 BSP 和 驱动 变更 


有 了 设备 树 后 ， 不 由 震 要 大 量 的 板 级 信息 ， 辟 如 过 去 经 党 在 arch/arnyplat-xxx 和 arch/arm/mach-xxx 中 实 
施 如 下 事情 。 


1 .注册 platform device， 绑 定 resource， 即 内 存 、 耻 Q 等 板 级 信息 


We a, JEU: 


Stalac BStPuct Tresource xxx resources] | = 4 
LOT = 4 
.Start = 
.end = ay 
silaga = IORESOURCE MEM, 
by 
La) S i 
.Start = 
.end = 2, 
.flags = LIORESOURCE IRO; 
by 
); 
Static SULUCE platrorm device xxx device = 1 
.name = “Xn; 
id = -l, 
.dev = { 
platform ‘data = &Xxx data, 
by 
.resource XXX resources, 


‘num KeSources ARRAY SIZE(xxx resources), 


之 类 的 platform _ device 代码 都 不 再 需要 ， 其 中 platform _ device 会 由 内 核 目 动 展 开 。 而 这 些 resource 实 际 
来 产 于 .dts 中 设备 节点 的 reg、interrupts 属 性 。 


典型 的 ， 大 多 数 总 线 痢 与 “simple_bus” 莱 容 ， 而 在 与 SoC 对 应 的 设备 的 .init_ machine 成 员 函 数 中 ， 调 用 
of platform bus probe (NULL, xxx of bus ids, NULL) ; 即 可 目 动 展开 所 有 的 platform device. 


2. 注 册 i2c board info, fs IRQGMA f IS 
JE Un: 


Static Struct 120 Dbodrd.inrfo. i1nitdatd alebo260 120 devrices[] = { 
I2C BOARD INFO("tl1v320aic23", Oxla), 
I2C BOARD INFO("fm3130", 0x68), 


I2C BOARD INFO("24c64", 0x50), 


之 类 的 ic board infofVf3 H BU AP Bir HE. MENR v BAF tlv320aic23. fm3130. 2464X EE ee AIR 
充 作 为 相应 的 了 C 控 制 器 节点 的 子 节点 即 可 ， 类 似 于 前 面 的 代码 : 


LACUL; O- 
compatible = "acme,al234-1i2c-bus"; 


Eeeoo 4 
compatible = "maxim,ds1338"; 
reg = <58>; 
interrupts = < 7 3 >; 

by 

^; 


设备 树 中 的 [fC 客户 端 会 通过 在 I*C host 驱 动 的 probe() 函数 中 调用 的 of i2c register devices (&i2c dev- 
>adapter) ; W H BRIT. 


3. 注 册 spi board info， 指 定 IRQ 等 板 级 信息 


形 如 : 


Stalic Struce spi Doard into areb9260 spa devriocese[l] e 4 
{ /* DataFlash chip */ 
.modalias "mtd dataflash", 
nip Select 13 
.max speed hz Lo: = $2000 v 1000, 
.bus num UF 


之 类 的 spi board info 代 人 码 目 前 不 再 需要 出 现 ， 与 C 类 似 ， 现 在 只 需要 把 mtd dataflash 之 类 的 节点 作为 SPI 
FERIZI T H ABNA, SPI host 驱 动 的 probe〈() 图 数 通过 spi register master O 注册 主机 的 时 候 ， 会 目 动 
展开 依附 于 它 的 从 机 ，spear1310-evb.dts 中 的 st，m25Sp80SPI 接 口 的 NOR Flash® zi 4l b: 


spi0: spi@e0100000 { 
status = "okay"; 
num-cs = <3>; 

m25p80@1 { 
compatible = "st,m25p80"; 


ae 
} 


4. 多 个 针对 不 同 电路 板 的 设备 ， 以 及 相关 的 回调 函数 


在 过 去 ，ARM Linux 针 对 不 同 的 电路 板 会 建立 由 MACHINE START 和 MACHINE END 包 围 的 设备 ， 
引入 设备 树 之 后 ，MACHINE START 变 更 为 DT MACHINE START， 其 中 含有 一 个 .dt compat 成 员 ， 用 于 
表明 相关 的 设备 与 .dts 中 根 市 点 的 莱 容 属性 的 羔 容 关系 。 


这 样 可 以 显著 改善 代码 的 结构 并 减少 元 余 的 代码 ， 在 不 支持 设备 树 的 情况 下 ， 光 是 一 个 S3C24xx 束 存 
在 多 个 板 文件 ， 壁 如 mach-amlm5900.c、mach-gta02.c、mach-smdk2410.c、mach-qt2410.c、mach-rx3715.c 
等 ， 其 累计 的 代码 量 是 相当 大 的 ， 板 级 信息 都 用 C 语 言 来 实现 。 而 采用 设备 树 后 ， 我 们 可 以 对 多 个 SoC 和 
板子 使 用 同一 个 DT_MACHINE 和 板 文 件 ， 板 子 和 板子 之 间 的 差异 更 多 只 是 通过 不 同 的 .dts 文 件 来 体现 。 


5. 设 备 与 驱动 的 还 配方 式 


BEALE Je. Ba 8 25 FE. dts PHI Bee ETT VE, AAT TESST probe O 函数 执行 。 新 
的 驱动 、 设 备 的 匹配 变 成 了 设备 树 节 乓 的 兼容 属性 和 设备 驱动 中 的 OF 匹配 表 的 匹配 。 


6. 设 备 的 平台 数据 属性 化 


i2c board info. spi board info 等 的 时 候 绑 定 platform data， 而 后 驱动 通 
在 arch/arm/mach-at91/board-sam9263ek.c 下 用 如 下 代码 注册 gpio keys 设备 ， 


在 Linux 2.6 F, IK) ATE H X platform data， 在 arch/arm/mach-xxx 注 册 platform device. 


结构 体 来 定义 platform data. 


Stabic Struct ODIO keys button ek butcons|)] = 1 
{ I* Bei, ""Lerteblog" ww 
.COOe — BTN LEFT, 
.gpio = ATO 1 PIN Coy 
.active low = 1, 
ese = “Gere BEIGE 
. wakeup = 1, 
"yrghtoLio™ wy 


); . 


Static Struct gpio keys platiorm data ek button data = 


jJ BPO. 


} 


-Uttons = 6k DUttOns, 
.nbuttons = ARRAY SIZE (ek buttons); 
); 
Static Struct platform device ek button device e 4 
.name = "gpio-keys", 
全 = eh. 
Qum resources = Uy 


. dev 


{ 


platform datas &ek button data, 


设备 驱动 drivers/input/keyboard/gpio keys.c 则 通 


{ 


Static int Jgplo keys probe(struct platformsu device: ^pdev) 


{ 


struct device *dev = &pdev->dev; 


CONSE. S ruci gpro keys platform data “pdate = dev get plardacaidey).; 


} 


在 转移 到 设备 树 后 ，platform data 便 不 再 豆 欢 放 在 arch/arm/mach-xxx 中 了 了， 
锋 取 ， 比 如 一 个 电路 板 上 有 gpio_keys， 则 


从 需要 


origen.dts 中 的 如 代码 清单 18.17 所 示 的 信息 则 可 。 


代码 清单 18.17 在 设备 树 中 添加 GPIO 按 键 信 息 


1 


gpio keys { 

compatible = "gpio-keys"; 

#address-cells = «1»; 

#Size-cells = «0»; 

up { 
label = "Up"; 
gpios = «&gpx2 0 1»; 
linux code = REY DP; 
gpio-key,wakeup; 

be 

down { 


label = "Down"; 

gpios = «&gpx2 1 1»; 
linux,code - «KEY DOWN»; 
gpio-key,wakeup; 


过 标准 API 获 取 平 台数 据 。 和 壁 如 ， 


通过 gpio keys platform data 


过 如 下 简单 方法 取得 这 个 信息 。 


它 需 要 从 设备 树 的 属性 中 


“ETC Pe PY FAAS DUE VA arch/arm/boot/dts/exynos42 10- 


19 
Z0 x 


而 drivers/input/keyboard/gpio_keys.c 则 通过 以 of 开头 的 该 属性 的 API 来 谈 取 这 些 信 息 ， 并 
gpio keys platform data 结 构 体 ， 如 代码 清单 18.18 所 示 。 


代码 清单 18.18 在 GPIO 按 键 驱动 中 获取 .dts 中 的 键 描 述 


SEE 
Zgpmo KEYS get.deveree-puaataistruct device ^dev) 


9d 
4 Struct device node *node. * pp; 
J struct gpro-keys. platform data *pbdata; 
6 SULUCE gpro keys Duvtonm 4DUtbom 
7 Lt 
8 Et tons > 
9 nE: ud 
1.0 
a node: > "EV Oru node; 
12 if (!node) 
1.5 return ERR PER (-ENODEV):; 
14 
T3 和 让 ER 
16 if (nbuttons == 0) 
T7 return BRR. PTEC-ENODEV); 
l0 
19 pdata = devm kzalloc (dev, 
20 sizeof (*pdata) + nbuttons * sizeof(*button), 
ZI GFP KERNEL) ; 
22 if (!pdata) 
2 return FRR. PTR (=ENOMEM); 
24 
29 poata-3DuLLtons.- XSLIUOGL GPIO keys Dutton *) (poate se d 
26 pdata-»nbuttons = nbuttons; 
2.1 
2:8 pouata-c rep = Iro- get Property (mode; "*aubtdrepedgut, NUELI 
29 
30 i = 0; 
21 ror each: child’ of node (node, pp) 4 
Dd TE puo 
D enum “OL Ope: Flags: 1 lags, 
34 
SIS LE (POL Tine: Propert (ppp. "gpros' NUE): d 
36 pudatace cHDOUDtonsee 
37 dev warn(dev, "Found button without gpios\n"); 
30 continue; 
39 } 
40 
41 OPLO uf get gplo tlags (pp; 0, .-SElags); 
42 if Opa <0) A 
43 error = gpio; 
44 LE (error lie S ERPROBE DEFER) 
45 dev err (dev, 
46 "Hated tO get dgplo-rflags, errori Son", 
4] error)? 
48 ESCUTA ERR PIU OTPOrF 
49 j 
50 
Sid. button = uxpdata--buttonsLrrzls 
OZ 
O9 button-2gpio = OOLOS 
54 Duttone^acurve Low = flags: & OF GPIO ACTIVE OW; 
J5 
56 IE: (Of proper Cy reod u»2(pp, "izxnux,code", eDbuubonescode)4 d 
Sx dev err(dev, "Button without keycode: Ox%x\n", 
58 bution-cgpro); 
59 return ERR. PIR(SEINVALJ; 
60 j 
61 
62 DHLDoOn-2dese = OL eut Property (ep; “Label NUBE 
63 
64 BE (Ol. property read u221pps "Lrnux,iuput-type"',-sbutton--type)) 
C5 Dücttonecbype = EV KEY; 
66 
67 button--wakeup = !10f. get property(pp, "gpro-key,wakeup", NULL); 
68 
69 pr (Ol. property read VY (Dy "debounce-rinterval^, 
70 &button--debounce rnuerval)) 
Jd buttonscdebounoe titer ved: ey 


74 if pdata-^nbuttons.see 0) 


TO return ERR PTR(-EINVAL); 
76 

77 return pdata; 

78} 


上 上述 代 码 通过 第 31 行 的 for each child of node () iiJAigpio keys i A RINPTPA Sia, JPXSIX 
of get gpio flags (Ù) 、of property read u32 O 等 API 谈 取出 来 与 各 个 子 节 点 对 应 的 GPIO、 与 每 个 GPIO 
对 应 的 键盘 键 值 等 。 


18.4 ”常用 的 OF API 


除了 前 文 介绍 的 of machine is compatible () 、of device is compatible () 等 常用 函数 以 外 ， 在 Linux 
的 BSP 和 张 动 代码 中 ， 经 第 会 使 用 到 一 些 Linux 中 其 他 设备 树 的 API， 这 些 API 通 第 令 冠 以 of 前 级 ， 它 们 的 
实现 代码 位 于 内 核 的 drivers/of 目 录 下 。 


这 些 常用 的 API 包 括 下 面 内 容 。 


struct, device node “or rlnd compatible node (Struct device node iron, 
const. char *type, const char *compatible) ; 


MARGE. SR CHE D Ris JJ CE RIT] UC Ho BUB SSE ERRE AB PR 
的 输入 参数 匹配 ， 在 大 多 数 情况 下 ，ffom、type 为 NULL， 则 表示 遍历 了 所 有 节点 。 


2. 谈 取 属 性 


nnt OL Property read uo array (econ SLIUCC device node “np, 

Const Char ^*DropnaHe, uo "pul values, Size t 5S2); 

int of property read ul6 array(const struct device node *np, 
const Char *propname, ule ^out values, size t S92); 

LEE. OI property: read u22 array(coHsSt Struct device node *Hpy 
const Chiar “prophane, u22 *out values. Size © $2)7 

ILE OF property read uo4(coBSt Struct device node “npy Conse Char 
^propname, uo4 *our value); 


恋 取 设备 节点 np 的 属性 名 ， 为 propname， 属 性 类 型 为 8、16、32、64 位 整 型 数组 。 对 于 32 位 处 理 器 来 


讲 ， 最 常用 的 是 of property read u32 array ©) 。 


如 在 arch/arm/mm/cache-12x0.c 中 ， 通 过 如 下 语句 可 读 取 L2cache 的 "arm，data-latency" 属 性 : 


Or Property redd us- Srray nb "aru data-latency", 
data, ARRAY SIZE(data) ); 


#£arch/arm/boot/dts/vexpress-v2p-ca9.dts'F, XMAS "amm, data-latency" /&T'EHJL2cache B AY P: 


L2: cache-controller((1e00a000 { 
compatible = "arm,pl31l0-cache"; 
reg = «0Oxle00a000 0x1000»; 
interrupts = «0 43 4»; 
cache-level = «2»; 
arm,data-latency = «1 1 1»; 
arm,tag-latency = «1 1 1»; 

j 


在 有 些 情况 下 ， 警 型 属性 的 长 度 可 能 为 1， 于 是 内 核 为 了 方便 调用 着 ， 义 在 上 述 API 的 基础 上 封 疤 出 
了 更 加 人 简单 的 读 单 一 整形 属性 的 API， 它 们 为 int of property read u8 (©) ~ of property read ul6 O 等 ， 实 


现 于 include/linux/ofh 中 ， 如 代码 清单 18.19 所 示 。 


代码 清单 18.19 ”设备 树 中 整 型 属性 的 讯 取 API 


Stacie: Inkline: Tit Ort DroOperuy redd Uo(qconst SbrPuec Gevice node. np, 


2 const char *propname, 

3 u8 *out value) 

du 

9 return or Droperty redd uy erray(np,. Pr Oprane; OUL value; 1L» 
6 } 

7 

ostatrc inline rnt Of property read uloeo(consu SuLruct devrce node “np; 

9 const char *propname, 

139 ulo our value) 

14 

12 return Of property read üle- arrar (nip, i propname;, Out value, 1); 
13 

14 

IostagLtic-amLbne ont wr properas read uos21400ngt Suruct-devroe ode: I 

1:6 const char ^propname; 

17 us2. "out value) 

18 { 

149 reLurn of (property read u52 array (np, prophame; Out value; 1); 
20} 


ER ST EAVES, FIR EC aS A, OT A APT LF: 


LIED OL Doperty read ST EINS C UC device. node: Dp; “Cons: chiar 

^propname,comnmect Chae on Strung); 

IQL-OfT pPropenty Lea OCEN i ndex(Suruce devi Ce node ID Conse- Char 
*"propname,int Index; const char **OutpuL):? 


HI XE BEARER BPE, Jn BERUF E 228 Je MEAN SS index-h ^ EP. WHdrivers/clk/clk.c P H 
of clk get parent name O PEZ of property read string index ( W Jcelkspec T za BJ PA "clock- 


output-names" ^r fj FR Zi ZH Jr TE- 
代码 请 单 18.20 ”在 驱动 中 读 取 第 index 个 字符 串 的 例子 


lconst “Chan Toi clk get parent- Name (Struct: devrce node np. Int andex) 


A 

3 有 

4 COnst char “elk. names 

5 TL. Cy 

6 

7 if (index < O0) 

8 return NULL; 

9 
10 PO = Of Darse phandle With. args(np, “clocks”, "“Telock=celle”™,. index, 
LI &clkspec); 
12 Lf (Le) 

d return NULL; 

14 

LS LE (OF property read.strang sndex(clkspec.np, "Glook-outputenames", 
16 ClkspeCeargs Count, <elbkspec.arge [o], + Uy 
17 elk mame) <0) 

18 Clie name = CLRS pec. np=> name; 

19 
20 Or node PUL eClkspec snp); 
21 return CLE name; 
22 


ZORAXPORIT SYMBOL GPLE(QOI GLK get parent name); 


REW, PPS DAP EY E HIR ERE edTRARTS, RIAPRE, HP 


tace 1 lame: DOO). ot Pro Perty requ bool. Cone Trun: dewrce node: “np, 


const Char ^propname); 


如 果 设 备 节 点 np 含有 propname 属 性 ， 则 返回 true， 否 则 返回 false。 一 般 用 于 检查 空 属性 是 否 存在 。 


3. 内 存 映 射 


võid  uomem “of lOmap (struci device node “node, iint index)? 


上 上 述 API 可 DE Ra SE V E ETT Vct A EX TA] ioremap ©) , indeé PIE EE o AMT WA 
的 reg 属 性 有 多 段 ， 可 通过 index 标 示 要 ioremap O 的 是 哪 一 段 ， 在 只 有 1]1 段 的 情况 ，index 为 0。 采 用 设备 树 
后 ， 一 些 设备 驱动 通过 of iomap O 而 不 再 通过 传统 的 ioremap O 进行 映射 ， 当 然 ， 传 统 的 ioremap ©) 
的 用 户 也 不 少 。 











A8 


int OL address Lo resource|struct device node *dev, int Index, 
Strucr resource *r); 


上 述 API 通 过 设备 节 扣 获取 与 它 对 应 的 内 存 资 源 的 resource 结 构 体 。 其 本 质 是 分 析 reg 属 性 以 获取 内 存 
基地 址 、 大 小 等 信息 并 填充 到 struct resource*r 参 数 指 回 的 结构 体 中 。 


4. 解 析 中 断 


unsigned ant irg Of parse and Map (Struct. device node *dév, ant index); 


过 设备 树 获 得 设备 的 中 断 号 ， 实 际 上 是 从 .dts 中 的 interrupts 属 性 里 解析 出 中 断 号 。 知 设备 使 用 了 多 
^F Plt, indexfaxe FF BER ZR SIS o 


5 RAS Ros DLW platform device 


struct platform device “of Tind device by node(struct device node *np); 


在 可 以 拿 到 device _ node 的 情况 下 ， 如 果 想 反 同 获取 对 应 的 platform device, "JEH Ex API 
当然 ， 在 已 知 platform _ device 的 情况 下 ， 想 获取 device_ node 则 易如反掌 ， 例 如 : 


stallo Ant o Tigo dma probe (struct platform device ~op) 
{ 


Strucr device node “on = op-2dev,.Of node; 


} 


18.5 总 结 


宛 斤 看 ARM 社 区 的 大 量 垃圾 代码 导致 Linus 盛 八 ， 因 此 该 社区 在 2011~2012 年 进行 了 大 量 的 修整 工 
作 。ARM Linux 开 始 围绕 设备 树 展 开 ， 设 备 树 有 自己 的 独立 语法 ， 它 的 源 文件 为 .dts， 编 译 后 得 到 .dtb， 
Bootloader 在 引导 Linux 内 核 的 时 候 会 将 :dtb 地 址 告知 内 核 。 之 后 内 核 会 展开 设备 树 并 创建 和 注册 相关 的 设 
备 ， 因 此 arch/arm/mach-xxx 和 arch/arm/plat-xxx 中 的 大 量 用 于 注册 platform、I*C、SPI 等 板 级 信息 的 代码 被 市 
除 ， 而 驱动 也 以 新 的 方式 与 在 .dts 中 定义 的 设备 节点 进行 匹配 。 


第 19 革 Linux 电源 官 理 的 系统 染 构 和 驱动 
dH Wu 
LinuxfE 1H 2x HL SUR] LH] C2 AH Sa, MATARA mA, Ae Se. 
19.1 T BIAS f' Linux EYE E 338 RS s SR AY o 


19.219.854) 31635 [| CPUFreq. CPUIdle, CPUAÉi3 EJ AJ ES S d uli Regulator, OPPLA / Hadi 
党 理 的 调试 工具 PowerTop 。 


19.9 太 讲解 了 系统 挂 起 到 RAM 的 过 程 以 及 人 设备 驱动 古 如 何 对 挂 起 到 RAM 文 持 的 。 
19.10 广 讲解 了 设备 驱动 的 运行 时 挂 起 。 


本 和 章 是 Linux 设 备 张 动工 程 师 必 备 的 知识 体系 。 


19.1 _ Linux 电源 管理 的 全 局 架构 


Linux 电 源 官 理 非常 复 森 ， 军 扯 到 系统 级 的 每 机 、 频 紊 电压 变换 、 系 统 空 几 时 的 处 理 以 及 每 个 设备 驱 
动 对 系统 待机 的 文 持 和 每 个 设备 的 运行 时 (Runtime) 电源 管理 ， 可 以 说 它 和 系统 中 的 每 个 设备 驱动 都 奶 
EH. 


对 于 消费 电子 产品 来 说 ， 电 源 管 理 相 当 重 要 。 因 此 ， 这 部 分 工作 往往 在 开发 周期 中 占据 相当 大 的 比 
重 ， 图 19.1 呈 现 了 Linux 内 核电 源 官 理 的 整体 架构 。 大 体 可 以 归纳 为 如 下 几 类 : 


YY 


1) CPUfTE3S TT IT TR Ji AR 1 BIE FT 2 AS FEL Js A KE HK CPUF req o 


VY 


2) CPUE RAT NN AS 8 HN PE KG DE TU CPUIdle. 


VY 


3) BARA FCPUM ZEIT SF 


YY 


4) 系统 和 设备 针对 延迟 的 特别 再 求 而 提出 申请 的 PM QoS, ERIE FCPUIdleHy HAR - 


YY 


5) 设备 驱动 针对 系统 挂 起 到 RAM/ 便 盘 的 一 系列 入 口 隙 数 。 


YY 


6) SoC 进 入 挂 起 状态 、SDRAM 自 刷新 的 入 口 。 


\Y 


7) Oth HIS AT IN De HD EE, RIME TR LAS RA o 


8) 压 层 的 时 钟 、 稳 压强 、 频 率 / 电 压 表 (OPP 模块 完 成 ) 文 撑 ， 各 驱动 子 系统 部 可 能 用 到 。 


用 户 空 间 









I CPU DVFS 
运行 时 (CPUFreq) 


系统 级 
挂 起 /恢复 挂 起 /恢复 








SoC 平 台 级 电源 
操作 回调 





图 19.1 Linux 内 核电 源 管理 的 整体 架构 


19.2 ”CPUFreq 驱 动 


CPUFreq 了 系统 位 于 drivers/cpufreq 目 孙 下 ， 和 负责 进 行 运 行 过 程 中 CPU 和 频 雍 和 电压 的 动态 调整 ， 即 
DVFS (Dynamic Voltage Frequency Scaling, 25 FAK MA VE). TAFT AY REFT CPUAB JK AAS 18] JR 
ke: CMOS 电 路 中 的 功 耗 与 电压 的 平方 成 正比 、 与 频率 成 正比 (PocfV*) ， 因 此 降低 电压 和 频率 可 降低 功 
TE. 

CPUF req EZ tz F drivers/cpufreq/cpufreq.c F, "73$ SoOCHJCPUFreqJE/]E] Scd Bt  — E25 
一 的 接口 ， 并 实现 了 一 套 notifier 机 制 ， 可 以 在 CPUFreq 的 策略 和 频率 改变 的 时 候 同 其 他 模块 发 出 通知 。 另 
外 ， 在 CPU 运行 频率 发 生 杰 化 的 时 候 ， 内 核 的 loops per jiffy ESR EIME o 


19.2.1 SoCHYCPUFreqek ay KEN, 
每 个 SoC 的 基体 CPUFreq 张 动 实例 只 需要 实现 电压 、 频 雍 表 ， 以 及 从 硬件 层面 完成 这 些 变 化 。 
CPUFreqth bz BE san FAPILAZESoCLEM H 5 H CPUFreq k3): 
intcpufreq register driver(struct cpufreq driver *driver data); 


其 参数 为 一 个 cpufreq driver 结构 体 指针 ， 实 际 上 ，cpufreq driver 2X f —~SAVEHISoCHYCPUFreq 3X 
动 的 主体 ， 访 结构 体形 如 代码 清单 19.1 所 示 。 


代码 清单 19.1 cpufreq driver 结构 体 


LSerUuCcl. OCpurredg driver 1 


2struct module *owner; 

3char name[CPUFREQ NAME LEN]; 

4u8 Lladgs; 

5 

6 /* needed by all drivers */ 

Tint (*init) (Stract cpurredg policy “policy); 
Sane (*verify) (struct cpüitreg policy policy); 
9 
10 /* define one out of two */ 

Lint (*setpolicy) (SEPUCL Courmeq policy “~policy).; 
LZ in (*target) (Graci cpurreg policy *policy), 


loünsigned Xnttarget Ered, 
14unsigned int relation); 


15 

16 /* should be defined, if possible */ 

l7unsigned int (*get) (unsigned intcpu); 

18 

19 7 Optional */ 

20unsigned int (*getavg) (SEPLOD ODULDeq policy *policy, 
2lunsigned intcpu); 

221nt (*bios limit) (intcpu, unsigned int *limit); 
a 

24int (*exit) (SEPUCL cpurreq policy *DOIXZCY) 
Zn (*suspend) (SELUCL. ee policy *DOLICYyJ 
261int (*resume) (Struct ODuLrteq policy *polrcy)s 
2IStruct£iredg altr SUO 

28]; 


其 中 的 owner 成 员 一 般 被 设置 为 THIS MODULE; name 成 员 是 CPUFreq 驱 动 的 名 字 ， 如 
drivers/cpufreq/s5pv210-cpufreq.cix Einame7Js5pv210, drivers/cpufreq/omap-cpufreq.ciX Einame7Jomap; flags 
fe CHR OREN fae, ERU. Av SCPUFREQ CONST LOOPS， 则 是 告诉 内 核 loops per jiffy 不 会 因为 
CPU 频 紊 的 变化 而 变化 。 


init OO) 成 员 是 一 个 per-CPU 和 初始 化 函数 指针 ， 每 当 一 个 新 的 CPU 伞 注册 进 系统 的 上 时候， 该 水 数 束 外调 
用 ， 访 函数 接 有 党 一 个 cpufreq_ policy 的 指针 参数 ， 在 init O 成 员 图 数 中 ， 可 进行 如 下 设置 : 


LT 
policy-^cpulnrfiosmax reg 


上 述 代码 描述 的 是 该 CPU 文 持 的 最 小 频率 和 节 大 频率 〈 单 位 是 kHz) 。 


polircy-^cepurintosgtransitrion Latency 


ERR AS E HN AE CPU EFT MUS UH Bru SS EI CAM ens ) 


policy- -CUr 


上 上述 代 码 描述 的 是 CPU 的 当前 频率 。 


polacy=Spolicy 
policy->governor 
policy- min 
pOoLlicy=>max 


ERR MISE IACPUNTIR AH, DAR EDR RR TP ASR SCIEN Be). IOKCPUMUS « 


verify O R RAZ TFX A P HJCPUFreq?R Re V VEST “ACHE rE PAZ IE. BESSA PE UNI 
WERI, ARAOR D E LP] MS ATS cet s ST Soe IT MS BE A CEE TC EET RIB IE TET 
V, va PRS SSCL, HY AA BU PSU ek Z: 


ee tag oa cpufreq policy *policy, unsigned intmin freq, 
setpolicy O 成 员 函 数 接 有 党 一 个 policy 参 数 〈 包 侣 policy->policy、policy->min 和 policy->max 等 成 员 ) ， 
实现 了 这 个 成 员 函 数 的 CPU 一 般 具 备 在 一 个 范围 《〈limit， 从 policy->min 到 policy->max) 里 上 自动 调整 频率 的 
能 力 。 目 前 只 有 少数 驱动 〈 如 intel pstate.cfllongrun.c) 包含 这 样 的 成 员 函 数 ， 而 绝 大 多 数 CPU 都 不 会 实现 
Ie ea, — Ax Etarget O BPA, target O 的 参数 和 直接 就 是 一 个 指定 的 频率 。 


target ©) 成 员 函 数 用 于 将 频 座 调整 到 一 个 指定 的 值 ， 接 受 3 个 参数 : policy. target freq 和 relation。 
target freq 是 目标 和 频率， 实际 驱动 总 是 要 设 定 真实 的 CPU 频 革 到 最 接近 于 target freq, FFA KEHNA DAH 
位 于 policy->min 到 policy->max 之 间 。 在 设 定 频 对 接 近 target freq 的 情况 下 ，relation 乔 为 
CPUFREQ REL L, WHR NRE NSE DAK T aks ] target freq; relation 右 为 CPUFREQ REL H， 则 暗 


AN WCE al NL T Be T target. freq. 
3€19.13853^ [f setpolicy C) 和 target ©) 所 针对 的 CPU 以 及 调用 方式 上 的 区 列 。 


表 19.1 setpolicy © target O 所 针对 的 CPU 及 其 调用 方式 上 的 区 列 
Setpolicy() Target() 
CPU 具备 在 一 定 范 围 内 独立 调整 频率 的 能 力 CPU 只 能 被 指定 频率 


CPUfreq policy 调用 到 setpolicyO, Hj CPU 独立 在 一 个 范 | 由 CPUFreq 核心 层 根 据 系统 负载 和 策略 综合 决定 目 
围 内 调整 频率 SES 


根据 心 片 内 部 PLL 和 分 频 器 的 关系 ，ARM SoC 一 般 不 具备 独立 调整 频率 的 能 力 ， 往 往 SoC 的 CPUFreq 
驱动 会 提供 一 个 频率 表 ， 糯 率 在 该 表 的 范围 内 进行 变更 ， 因 此 一 般 实现 target OO 成 员 函 数 。 


CPUFreq 核 心 层 提供 了 一 组 与 频率 表 相 关 的 辅助 API。 


Invcpuireq frequency table Cournro(struce Ccourreg policy “policy, 
Struct gpurreq Trequéency table “Labie); 


它 是 cpufreq driverHJinit ©) 成 员 图 数 的 助手 ， 用 于 将 policy->min 和 policy->max 议 置 为 与 


cpuinfo.min freq 和 cpuinfo.max freq#H lF] MHE - 


Un table Verily (struct -Ccourred policy “policy, 
SLLUCE. ODUEPOd Frequency Table table)., 


它 古 cpufreq_driver 的 verify() M P PAH BI, BED BZD LTUS AXBJCPUAIUSS 17 T policy->min#] 
policy->max HJ Tis Hil AY « 


lntopurreg frequency table Targeu (struct Courred policy “policy, 
SUEUCL CouUrtred frequency table "Lapls, 

unsigned xnittarget Ireg, 

unsigned int relation, 

unsigned int *index); 





O 


它 和 是 cpufreq_driver 的 target ©) 成 员 疯 数 的 助手 ， 返 回 需 要 设 定 的 频率 在 频率 表 中 的 过 3 


省 略 挥 具体 的 细节 ，1 个 SoC 的 CPUFreq 了 驱动 实例 drivers/cpufreq/s3c64xx-cpufreq.c 的 核心 结构 如 代码 清 
单 19.2 所 示 。 


代码 清单 19.2”S3C64xx 的 CPUFreq 驱 动 


lsStautrc unsigned Long regulator latency; 

< 

ETUGOL sS3064xx dvfs- | 

4unsigned intvddarm min; 

ounsigned intvddarm max; 

6]; 

7 

ostatic struct s3co4xx dvfs s3ce64xx dvfs table[] = { 
9[0] = { 1000000, 1150000 }, 
IO) 
1L[4] = [ 1300000; 1350000 1; 
Ls 
13 
l4static struct cpufreq frequency table s3co4xx freq table[] = | 
154 0; 66000 P, 
16% D, 100000. J, 


Lia 

18{ 0, CPUFREO TABLE END f3 

19}; 

20 

ZIStALLC int s5064xx cpurreq verify speed(struct courtreq policy *policy) 
221 

23911 TDOLlLO--Opu ie U) 

24 return -EINVAL; 

29 

Zoreturn epurreg Trequency table verify (Policy; eo2co2xx Tred table); 
2 

28 

29statric Unsigned nt s5co4xx cputreq get speed (unsigned intcpu) 

DU 

Shik (opu I= 0) 

32 return 0; 

33 

S4return. Clk get race (armclk) | L000s 

29} 

36 


S7/STACLOS inb Se argel (oL epurreq policy *policy, 


38 unsigned inttarget Iren; 


39 unsigned int relation) 

40 { 

41.. 

42ret = cpufreq frequency table target(policy, s3c6o4xx freq table, 
43 target Lreg, telaviony; &2)7 

4 4... 


45freqs.cpu = 0; 

ZoLreqs.old = olk get rate(armolk) / 1000; 

A7freqs.new = s3ce4xx freq table[il.frequency; 
48freqs.flags = 0; 

49dvfs = &s3co4xx dvfs table[s3co4xx freq table[il.index]; 


Ei 
5lif (freqs.old == fregs.new) 
32 return 0; 
DO 
S4Cpurreqd notlry transricrion(arreqs, CPUFREO PRECHANGE); 
Ds 
56if (vddarm&&freqs.new»fregs.old) { 
2 ret = regulator set vollage(vddarm, 
58 dvfs-»vddarm min, 
59 dvis=>vddarm max); 
60 
61] 
62 
Coret = Clk set rate(adrmoclk, freqs.new ~ 1000); 
64... 
o»cpufreg notify.transation(&rredqs, CPUFREO POSTCHANGE); 
66 
67if (vddarm&&fregs.new<freqs.old) { 
68 fet = regulator set voltage (vddarm, 
69 dvfs-»vddarm min, 
70 dvfs-»vddarm max); 
Jb 
12] 
73 
74return O0; 
Tol 
16 
Tio atio INU S2Codxx Cpuireg driver 2nit(strüucc Courreq policy “polacy) 
78 { 
(ae 
oU0grmolk = clk ec(NULhy, “armclk”™), 
Cl 
oZ2vddarm = regulator gët (NULL; "vadarm"); 
B 3a 
84s3ce4xx cpufreq config regulator)? 
85 
OOIIFGOq = SsCodxx treq table; 
Siwhile: (ireq->trequency I= CPUEREO. TABLE END). 4 
88 unsigned. long £2 
39 
90 } 
2d 
92policy->cur = clk get rate(armclk) / 1000; 
vopolrey-oopunigtotransertron.Llasbtenoy e (500 * 1000) F regulator latency; 
oO4ret = ocpurreg frequency table cpuinro(policy, s3co4xx freq table); 
9 
96return ret; 
97} 
gg 
29stdtlOSLruct Gpürreg driver 53004xx cpurreg driver = { 
100.owner = THIS MODULE, 
LOL it lags = 0, 
102.verify = s3co4xx cpufreq verify speed, 
103.target = S3CO4xxK cpurfreq set target, 
104.get = 02 Cpurreg get speed; 
LOS nae = s3co4xx cpufreq driver init, 
106.name = "s3c", 
20742 
108 
l09sStdtric int. — init $2064XX cputreq int (void) 
110( 
llireturn cpufreq register driver (ésscodxx cpurtreq driver); 
112} 


ll3module anit (sscoadxx cpurredg init); 


583747s3c64xx_cpufreq_set_target O WEE H MWA ENR, EVAR T 
cpufreq frequency table target ©) 从 s3c64xx 文 持 的 频 深 表 s3c64xx freq tableH# f Sar AR. TER TIT 
频率 和 电压 设置 环节 ， 用 的 都 是 Linux 的 标准 API regulator set voltage () 和 clk set rate OO 之 美的 图 数 。 


第 111 行 在 模块 初始 化 的 时 候 通 过 cpufreq register driver ©) 注册 了 cpufreq driver 的 实例 ， 第 94 行 ， 在 
CPUFreq 的 初始 化 阶段 调用 cpufreq frequency table cpuinfo O 注册 了 频率 表 。 关 于 频率 表 ， 比 较 新 的 内 核 
喜欢 使 用 后 面 章 站 将 介绍 的 OPP。 


19.2.2 ”CPUFreq 的 策略 


SoCCPUFreq 动 只 是 设 定 了 CPU 的 频率 参数 ， 以 及 提供 了 设置 频 蒜 的 途径 ， 但 是 它 并 不 会 管 CPU 目 
刁 究 竟 应 该 运行 在 哪 种 频率 上 。 完 葛 频 率 依 据 的 是 哪 种 标准 ， 进 行 何 种 变化 ， 而 这 些 完 全 由 CPUFreq 的 条 
HS Cpolicy) RE, XXe HA UIe19.2 TZ -o 


表 19.2 CPUFrep 的 策略 及 其 实现 方法 


CPUFreq 的 策略 策略 的 实现 方法 
cpufreq_ondemand 平时 以 低速 方式 运行 ， 当 系统 负载 提高 时 按 需 自动 提高 频率 
cpufreq performance CPU 以 最 高 频率 运行 ， 即 scaling max freq 


字面 含义 是 传统 的 、 保 守 的 ， 跟 ondemand 相似 ， 区 别 在 于 动态 频率 在 变更 
的 时 候 采 用 渐进 的 方式 


cpufreq powersave CPU 以 最 低频 率 运 行 ， 即 scaling min freq 


cpufreq conservative 


cpufreq userspace LEES PB sys 节点 scaling setspeed 设置 频率 


在 Android 系 统 中 ， 则 增加 了 1 个 区 互生 略 ， 该 蛇 略 适合 于 对 延 到 敏感 的 UI 区 互 任务 ， 当 有 UI 交 互 任务 
ESTES ABR, ASRS Se BE DIN Be FF E] 30. 8] E CPU BLK, 


FAM SZ, RARIS LA CPUFreq h RER [H] XE. S CPUE H dp, CPUFreqZ DRIP H 
MU XB IZ HASSoCICPUFreqUE 5], ASKS CUE, TERMS IACI, R19.22 


CPUFreq 核 心 层 CPUFreq mg 








SoC CPUFreg§kzh 


CPU fiti fF 








图 19.2 CPUFreq. AAW. WEE Jp» 


FAP 28 |B] — R4 n] 3X /sys/devices/system/cpu/cpux/cpufreq TJ A X w HR CPUFreq. "n, FAKE 
CPUFreq 人 到 700MHz， 米 用 userspace 宁 略 ， 则 运行 如 下 命令 : 


# echo userspace > /sys/devices/system/cpu/cpu0/cpufreq/scaling governor 
# echo 700000 > /sys/devices/system/cpu/cpu0/cpufregq/scaling setspeed 


19.2.3 ”CPUFreq 的 性 能 测试 和 调 优 


Linux 3.1 以 后 的 内 核 已 经 将 cpupower-utils 工 具 集 放 入 内 核 的 tools/power/cpupower 目 录 中 ， 该 工具 集 当 
中 的 cpufreq-bench 工 上 其 可 以 帮助 工程 师 分 析 灯 用 CPUFreq 后 对 系统 性 能 的 影响 。 


cpufreq-bench 工 其 的 工作 原理 是 模拟 系统 运行 时 候 的 “ 空 几 一 忙 一 空 几 一 忙 ” 场 景 ， 从 而 触 友 系统 的 动 
态 频 深 变 化 ， 人 然后 在 使 用 ondemand、conservative、interactive 等 宁 略 的 情况 下 ， 计 算 在 做 与 performance 局 频 
模式 下 同样 的 运算 完成 任务 的 时 间 比 例 。 


太 叉 编译 该 工具 后 ， 可 放 入 目标 电路 板 文件 系统 的 /usr/sbin/ 守 目录 下 ， 运 行 访 工具: 


f cpufreq-bench -1 50000 -s 100000 -x 50000 -y 100000 -g ondemand -r 5 -n 5 -v 


会 输出 一 系列 的 结果 ， 我 们 提取 其 中 的 Round n 这 样 的 行 ， 它 表明 了-g ondemandie M E ix XE HJondemand K 
略 相 对 于 performance 筑 略 的 性 能 比例 ， 假 设 信 为 : 


Round 1 - 39.74% 
Round 2 =- 36.352 
Round 3 = 47.91% 
Round 4 = 54.227 
Round 5 - 58.64% 


XEADA, BUN CEI RNP GR aC Android Ht) 40 ERE, SPLIT 


Round 72.95% 


] - 
Round 2 = 87.20% 
Round 3 = 91.21% 
Round 4 - 94.10% 
Round 5 - 94.93% 


一 般 的 目标 是 在 采用 CPUFreq 动 态 调 整 频 鞭 和 电压 后 ， 性 能 应 该 为 performance 这 个 高 性 能 策略 下 的 
90% 左 右 ， 这 样 才 比较 理想 。 


19.2.4  CPUFreqJBi XII 


CPUFreq 子 系统 会 发 出 通知 的 情况 有 两 种 : CPUFreq 的 策略 变化 或 者 CPU 运行 频率 变化 。 
在 稼 略 变 化 的 过 程 中 ， 会 发 送 3 次 通知 : 


-CPUFREQ _ADJUST: 所 有 注册 的 notifier 可 以 根据 硬件 或 者 光度 的 情况 去 修改 范围 《 即 policy->min 和 


policy->max) ; 


'CPUFREQ INCOMPATIBLE: 除非 前 面 的 案 略 设 定 可 能 会 寻 致 便 件 出 钳 ， 人 否则 被 注册 的 notifier 不 能 


改变 范围 等 议定 ; 
:CPUFREQ NOTIFY: 所 有 注册 的 notifier 都 会 被 告知 新 的 策略 已 经 被 设置 。 
在 频 计 变 化 的 过 程 中 ， 会 及 送 2 次 通知 : 
:CPUFREQ PRECHANGE: 准备 进行 频率 变更 ; 
:CPUFREQ POSTCHANGE: 已 经 完成 频率 变更 。 


notifier 中 的 第 3 个 参数 是 一 个 cpuffeq_freqs 的 结构 体 ， 包 舍 cpu (CPUS) 、old〈 过 去 的 频率 ) 和 


new (现在 的 频率 ) 这 3 个 成 员 。 发 送 CPUFREQ PRECHANGE 和 CPUFREQ POSTCHANGE 的 代码 如 下 : 


SeCu ROUTEeE Call chnaintscputreg transltroB notrrier Lrst, 
CPUFREO PRECHANGE, freqs); 
SEO noLrirrler Call charc(scpurreq transition notrfrer List; 
CPUFREQ POSTCHANGE, Trege); 


如 果 某 模块 关心 CPUFREQ PRECHANGE 或 CPUFREQ POSTCHANGE 事 件 ， 可 简单 地 使 用 Linux 
notifierfLi ad. 7n, drivers/video/sall00fb.cfE CPUAJI Z& AE SERE P mo B Er RT EXETI TB AS V BRL. 此 
它 注册 了 notifier 并 在 CPUFREQ PRECHANGE#ICPUFREQ POSTCHANGE 情 况 下 分 别 进行 不 同 的 处 理 ， 
如 代码 清单 19.3 所 示 。 


代码 清单 19.3 CPUFreq notifier (il 


libi-cLreq ranci tion. Notiser call = sa2ll00rfD Treg Lransrztlong 
Zcpurredgq register noLtirier(soribrie- freq transition, CFUFREQ TRANSITION NOTIFIER); 
3 


isallLOUID freg transeitrion(sbtrucoctnotirier DLOOK “nb, unsigned. Long val, 
5void *data) 

6 { 

T eeruce sall00Lb Info Ibi = TO INP (nb; Treg LrISHsrtromn s 

o SELruct Oputreg Iregs ^L = cata; 


9 ü- Xntpod; 
10 
ll Switch (val) { 
do Case CPUFBEO PRECHANGE: 
L Ser CULE stave (tba, C- DISABLE CLROCHANGEJ} 
14 break; 


Lo Case CPUFREO POSTCHANGE: 


16 ped: = Vet ped rDIi- ID.vabrlpixoelook, i--new) 7 


17 FOL reg Looro "(POL SEO eer se O |} seo Pixel epiy (ocd); 
18 Ser CLrlr stagte(rbri, C ENABLE CHRCHANGE); 

19 break; 

20 } 

2 Detur 07 

22. 


Cah, URE EU E/T ZY LE CPU SR REEL, WJCPUFreq T RAREZA I 
CPUFREQ SUSPENDCHANGE#ICPUFREQ RESUMECHANGE 这 两 个 通知 。 


值得 一 提 的 是 ， 除 了 CPU 以 外 ， 一 些 非 CPU 设 备 也 文 持 多 个 操作 频 京 和 电压 ， 和 存在 多 个 OPP。Linux 
3.2 之 后 的 内 核 也 支持 针对 这 种 非 CPU 设 备 的 DVFS， 该 套子 系统 为 Devfreq。 与 CPUFreg 存 在 一 个 
drivers/cpufreq 目 录 相 似 ， 在 内 核 中 也 存在 一 个 drivers/devfreq 的 目录 。 


19.3 CPUIdle 驱 动 


目前 的 ARM SoC 大 多 支持 几 个 不 同 的 Idle 级 别 ，CPUIdle 驱 动 子 系统 存在 的 目的 就 是 对 这 些 Idle 状 态 进 
行 管理 ， 并 根据 系统 的 运行 情况 进入 不 同 的 Idle 级 别 。 有 具体 SoC 的 底层 CPUIdle 驱 动 实现 则 提供 一 个 类 似 于 
CPUFreq 豫 动 频 率 表 的 Idle 级 别 表 ， 并 实现 各 种 不 同 Idle 状 态 的 进入 和 退出 流程 。 


对 于 Intel 系 列 笔记 本 计算 机 而 言 ， 支 持 ACPI (Advanced Configuration and Power Interface， 高 级 配置 和 
电源 接口 ) ， 一 般 有 4 个 不 同 的 C 状 态 《〈 其 中 C0 为 操作 状态 ，C1 是 Halt 状 态 ，C2 是 Stop-Clock 状 态 ，C3 是 
Sleep 状态 ) ， 如 表 19.3 所 示 。 


4219.3 4 个 不 同 的 C 状 态 


= iE os) 


mX FARMA. fT SoCXI T Idle) Sc 8i 7j TE28 HK, Bete RJ Idle A IT CPU ET 
WEI (Sf PTAC) RS, HEES P. ZISoCARSSHLE Er BO Hr ZECPUIdledK2/], — WI EA 
cpu do idle O ， 对 于 ARM V7 而 言 ， 其 实现 位 于 arch/arm/mm/proc-v7.S 中 : 


ENTRY(cpu v7 do idle) 


dsb Q WFI may enter a low-power mode 
wfi 


mov peu Le 
ENDPROC(cpu v7 do idle) 


与 CPUFreq 类 似 ，CPUIdle 的 核心 层 提 供 了 如 下 API 以 用 于 注册 一 个 cpuidle_driver 的 实例 : 
IMECOULOLe TOOLSLOF OfIver(sLrucLt ocpuldle driver "drv; 
并 提供 了 如 下 API 来 注册 一 个 cpuidle device: 


hive. CpuLdLe. register .device(struce Cpourcgle device ~dey), 


CPUIdle 张 动 必 须 针 对 每 个 CPU 注册 相应 的 cpuidle device， 这 意味 着 对 于 多 核 CPU 而 言 ， 需 要 针对 每 
个 CPU 注册 一 次 。 


cpuidle register driver () 接 党 1 个 cpuidle_driver 结 构 体 的 指针 参数 ， 充 结构 体 是 CPUIdle 张 动 的 主体 ， 
其 定义 如 代码 清单 19.4 所 示 。 


代码 清单 19.4 cpuidle driver 结 构 体 


Struct. ecepusdle driver i 
2 const char *name; 


3 struct module *owner; 

4 

5 unsigned int power specified:1; 

6 /* set to 1 to use the core cpuidle time keeping (for all states). */ 
7 unsigned int en core Tk Igeni; 

8 


SLIUCL CDUIOLe srace States |CPUIDLE STATE MAXI 
9 Tt State count; 

l0 int safe state Index 

11]; 


YEE MM SER El cpuidle state 的 表 ， 其 实 该 表 就 是 用 于 存储 各 种 不 同 Idle 级 别 的 信息 ， 它 的 
定义 如 代码 清早 19.5 所 示 。 


代码 清单 19.$ cpuidle state 结 构 体 


LStruct ocpardle Stace 4 


2 char name[CPUIDLE NAME LEN]; 

3 Chardesc(CPUIDLE DESC DEN]; 

4 

5 unsigned int flags; 

6 unsigned intexit latency; /* in US */ 

7 int power usage; /* in mW */ 

8 unsigned inttarget residency; /* in US */ 

9 bool disabled; /* disabled on all CPUs */ 
10 
11 int (*enter) (Struct. courdle. device “dey, 
12 SEruce Cpuidie driver “div, 
13 int index); 
14 
l5 ant (enter dead) (Struct Cpuldle device dev, Ini zndex); 
16}; 


Vv) 


name 和 desc 是 该 Idle 状 态 的 名 称 和 描述 ，exit latency 是 退出 该 Idle 状 态 需 要 的 延迟 ，enter O 是 进入 该 
Idle 状 态 的 实现 方法 。 


忽略 细节 ， 一 个 具体 的 SoC 的 CPUIdle 驱 动 实例 可 见于 arch/arm/mach-ux500/cpuidle.c( 最 新 的 内 核 已 经 
将 代码 转移 到 了 drivers/cpuidle/cpuidle-ux500.c 中 ) ， 它 有 两 个 Idle 级 别 ， 即 WFI 和 ApIdle， 其 其 体 实现 框架 
如 代码 清单 19.6 所 示 。 


代码 清单 19.6 ”ux500CPUIdle 驱 动 案例 


lSrtaticatomnioc t master = ATOMIC INIT (0); 
ASt atric DEFINE SPINLOCK(master lock); 
2sSbdgtrzo DEFINE PER CPU(Struce. couldle device; uxo00 cpuridle device); 


4 
optare aniline nt Uxo00 enter adle(e rice colidie device *dev, 
6 Structopuldie Graver “div, amc index) 
7 { 
SENT 
9 } 
10 
liSstavlestruce opurdLe driver uxo00 adie driver = { 
12 sname = "uxo00 Idle”; 
13 .owner = THIS MODULE, 
14 en core tk Irge = l; 
15 .states = { 
16 ARM CPUIDLE WFI STATE, 
IN ( 
18 .enter = UxoUU enter Idie; 
19 “exit latency = 70; 
20 target residency = 260; 
21 .flags = CPUIDLE FLAG TIME VALID, 
A2 . name = "ApIdle", 
23 .desc — "ARM Retention", 
24 by 
Zo Jy 


20 Sure stare index = 0, 


Zt «Stace: COUML. = 2; 


e OPES 
31 * For each cpu, setup the broadcast timer because we will 
32 * need to migrate the timers for the states »- ApIdle. 


So SUE 

34static void ux500 setup broadcast timer(void *arg) 
2D 

20. dntopu = Sip: processor 1d)? 

37 clockevents notify(CLOCK EVT NOTIFY BROADCAST ON, &cpu); 
38] 

39 

40int | init ux500 idle init (void) 

41{ 

42 .. 

do pet = opurdie register driver (cuxo0U Idle driver); 
44 .. 

45 for each online cpu(cpu) { 

46 device = &per ocpu(ux500 cpurdle device, cpu); 
4] device->cpu = cpu; 

48 Der = Oun Le ~seqiscer device (device); 

49 

50 } 

Dd y 

52} 


oodevice 1niteallduxoU0O Ladle TO 


与 CPUFreq 类 似 ， 在 CPUIdle 子 系统 中 也 有 对 应 的 governor 来 抉择 何 时 进入 何 种 Idle 级 别 的 策略 ， 这 些 
governor 包 括 CPU IDLE GOV LADDER, CPU IDLE GOV MENU。LADDER 在 进入 和 退出 Idle 级 别 的 时 
候 是 步 进 的 ， 它 以 过 去 的 Idle 时 间作 为 参考 ， 而 MENU 总 是 根据 预期 的 空 闪 时间 直接 进入 目标 Idle 级 别 。 前 
者 适用 于 没有 采用 动态 时 间 节 拍 的 系统 ( 即 没 有 选择 NO_HZ 的 系统 ) ， 不 依赖 于 NO_HZ 配 置 选 项 ， 而 后 
a HORT ARK ENO HZ tit. 


图 19.3 演 示 了 LADDER 步 进 从 C0 进 入 C3， 而 MENU 则 可 能 直接 从 C0 跳 入 C3 。 


4A A dà d 
( co |—» ci > C » C3 
Wu F Oo ww 
4h m Am dm 
( co ) (oi) [ c? | C 


图 19.3 LADDER 与 MENU 的 区 别 
CPUIdle 子 系统 还 通过 sys 加 userspace 导 出 了 一 些 节 点 : 


一 类 是 针对 整个 系统 的 /sys/devices/systemycpu/cpuidle， 通 过 其 中 的 current driver. current governor. 


available governors 13 a AY UIRA Ek ELCPUIdlel] JI 2/4 J, VA € governor. 


一 类 是 针对 每 个 CPU 的 /sys/devices/systemycpucpux/cpuidle， 通 过 子 节点 暴露 各 个 在 线 的 CPU 中 每 个 不 


间 Idle 级 列 的 name、desc、power、latency 等 信息 。 


综合 以 上 的 各 个 要 素 ， 可 以 给 出 Linux CPUIdle 子 系统 的 总 体 架 构 ， 如 图 19.4 所 示 。 





LADDER 
CPUIdlet% 

acpi-cupidle SoC 级 别 

i n cpuidle 















ARM 级 别 
cpu do idle 


图 19.4 Linux CPUIdle 子 系统 的 整体 架构 


19.4 Powerlop 


PowerTop 是 一 款 开 源 的 用 于 进行 电量 消耗 分 析 和 电源 管理 诊断 的 工具 ， 其 主页 位 于 Intel 开 源 技术 中 心 
的 https://01.org/powertop/， 维 护 者 是 Arjan van de Ven 和 Kristen Accardi。PowerTop 可 分 析 系 统 中 软件 的 功 
耗 ， 以 便 找 到 功 耗 大 户 ， 也 可 显示 系统 中 不 同 的 C 状 态 〈 与 CPUIdle 张 动 对 应 ) FUPTRAS CHECPUFreqJE JJ 
对 应 ) 的 时 间 比 例 ， 并 采用 了 基于 TAB 的 界面 风格 ， 如 图 19.$ 所 示 。 


[dle stats Tunables 


Overview 


The battery reports a discharge rate of 14.3 W 


Frequency stats — Device stats 


The estimated remaining tine is 93 minutes 


Summary: 165.5 wakeups/second, 


Usage 
100,05 
1900. 

,OQ ms/s 


2 


08 
05 


.2 ms/s 
.9 ms/s 


Hus/s 
s/s 
ms/s 
us/s 
us/s 
S/S 
HS/S 
ms/s 
s/s 
us/s 


PNYINYENOUUES 


Events/s 


59. 


NJ 
AO 
- UJ 


C M RN)U nuno Ow 0 
C P B» Un Ug CD Un GJ C OO 


Category 
Device 
Device 
Interrupt 
Device 
Device 
Process 
Process 
Device 
Interrupt 
Interrupt 
Process 
Interrupt 
Process 
Process 
Interrupt 
Process 
kWork 
Interrupt 


0.0 GPU ops/second, 6.0 VFS ops/sec and 4.1% CPU use 


Description 

Display backlight 

USB device: USB Optical Mouse 
PS/2 Touchpad / Keyboard / Mouse 
Audio codec hwCOD3: Intel 

Audio codec hwCODO: Realtek 
/usr/bin/Xorg :0 -background none 
xfce4-screensho 

USB device: AX8B772 

[7] sched(soflirgq) 

[41] 1915 

/usr/bin/Terminal 

[23] ehci_hcd usb2 

iscsid 

xfwa4 --display :0.0 --sm-cllent- 
[6] tasklet(softirg) 

xfdesktop --display :9.0 --sm-cli 
console callback 

[1] timer({softira) 





多 19.$ PowerTOP 


19.5 Regulator Kz) 


Reegulator 是 Linux 系 统 中 电源 管理 的 基础 设施 之 一 ， 用 于 稳 压 电源 的 管理 ， 是 各 种 驱动 子 系统 中 设置 
电压 的 标准 接口 。 表 面 介绍 的 CPUFreq 驱 动 束 经 党 使 用 它 来 设 定 电 压 ， 比 如 代码 清早 19.2 的 第 57~59 行 。 


而 Regulator 则 可 以 管理 系统 中 的 供电 间 元 ， 即 稳 压 项 〈Low Dropout Regulator，LDO， 即 低压 锋线 性 
Kaas) ， 并 提供 获取 和 设置 这 些 供电 单元 电压 的 接口 。 一 般 在 ARM 电 路 板 上 ， 各 个 稳 压 闫 和 设备 会 形 
成 一 个 Regulator 树 形 结构 ， 如 图 19.6 所 示 。 


Linux 的 Regulator 子 系统 提供 如 下 API 以 用 于 注册 / 广 销 一 个 稳 压 大 : 


Sstructregulator dev 2 regulator regrister(coHststructregulator desc 
“regulator desc, OODSLSLrucLregulqgvLor Cong *"OODELg) 
vordreguladaror unreolster(structregulator dev *r1dev); 


regulator register O 函数 的 两 个 参数 分 别 是 regulator desc 结 构 体 和 regulator config 结 构 体 的 指针 。 


; UR | 4 lii fF Regulatorl hb a.d li fF Regulator2 b 
( Power Supply) < E d < » 
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图 19.6 ”Reegulator 树 形 结 构 
regulator desc 结 构 体 是 对 这 个 稳 压 需 属 性 和 操作 的 封 匡 ， 如 代码 清单 19.7 所 示 。 


代码 清单 19.7 regulator desc 结 构 体 


LSLruoct regülaror desc. 1 





2 const char *name; /* Regulator 的 名 字 */ 

3 const Char *supply name; /* Regulator Supplylijz */ 

4 rnb 05 

5 unsigned n voltages; 

6 SLPUOCL POguiatof Ope “Ops, 

] int irg; 

8 enum regulator type type; /* 是 电压 还 是 电流 RegqulatoOr */ 

9 struct module *owner; 

10 

11 unsigned int min uV; /* 在 线性 映射 情况 下 最 低 的 Selector 的 电压 */ 
12 unsigned int uv step; /* 在 线性 映射 情况 下 每 步 增加 / 减 小 的 电压 * / 
13 unsigned int ramp delay; /* 电压 改变 后 稳定 下 来 所 需 时 间 * / 

14 

ils const unsigned int *volt table; /* 基于 表 映 射 情况 下 的 电压 映射 表 */ 

16 

17 unsigned int vsel reg; 

18 unsigned int vsel mask; 

s unsigned ant enable- regj 
20 unsigned int enable mask; 
Z1 Unsigned nt bypass reg; 


22 unsigned int bypass mask; 


23 
24 
Lops 


上 述 结构 体 中 的 regulator opsts£fops xe XT Xx] fe He as HE PE BRE a I, ZEA, 


AMT PRB 


代码 清单 19.8 


leSTruct 


unsigned int enable time; 


ü fV hdi 5.19.8 ATA 
regulator ops 结 构 体 


regulator ops 1 
/* enumerate supported voltages */ 
int. (FLL voltage) 


/* get/set regulator voltage */ 
int (*set voltage) 
unsigned *selector); 


(SLPUCL Pegularvor dev ^. Umsi9gned Selector); 


(struct regulator dev. *, int min uv, ant max uv, 


unsigned selector); 


int ("map voltage) (Struct regulator dev * Int min UV, int max uv); 
IAC (seu volvage sel) (struce regulator dev *, 

int. (get VOoLLage) (struce Tegula lor dey *); 

int (“get voltage sel) (Struct regulator dev. 5); 


]|* get/set regulator Current *y 
Loe ("See Currenc Int) 

int min uA, int max uA); 
int. (get Current Lint) 


/* enable/disable regulator */ 

int. (enable) (struce reguldtor dey *)7 

int. (*disable) (strucce regulator dev *); 
Int. ("e enabled) (struct regulator dey Ww) 


(SETUCe regulator dev 7, 


SC regulator dev *)7 


A> sth 
ri aK 


BU. WHA Hs SA) 


fEdrivers/regulator H3& F, LG RWS Fa oes Ho DA Regulator3Xa), WüDialogljDA9052. Intersil 
的 ISL6271A、STEricsson 的 TPS61050/61052、Wolfon 的 WM831x 系 列 等 ， 它 同时 提供 了 一 个 虚拟 的 
Regulator 驶 动作 为 参考 ， 如 代码 清单 19.9 所 示 。 


代码 清单 19.9 ”虚拟 的 Regulator 驱 动 


lercruct 
2Z2static 
3static 
4static 


10}; 
ll 
12static 
Lo 
14 
ike 
16 
17 
18 
19 
20 
21 
22 
23 
24 
25 
26 
2 
28} 


regulator dev "dummy regulator rdev; 
SLruct regulLdtor init data dummy anictdaca; 
struct regulator ops dummy ops; 

SLFUOCLC regulator Cesc dummy desc = 1 

.nanme = "regulator-dummy", 

Ae. = =l; 


.type = REGULATOR VOLTAGE, 
owner = THIS MODULE, 


-ops = &dummy ops, 
int | devinit dummy regulator probe(struct platform device *pdev) 
Struce regulator Contig OcOnbrg = T J3 


int ret; 


config.dev = &pdev->dev; 
contig.init. data = &dummy u1nitdata; 


dummy regulator rdev = regulator register (<dummy desc, &config); 


if (IS ERR(dummy regulator rdev)) { 
ret = PTR ERR(dummy regulator rdev); 
prt erri" balled LO Xegrsbter regulator: 
rerurn Ket; 


} 


return Ds 


cdi". EL); 


Linux 的 Resulator 子 系统 捉 供 请 费 者 (Consumer) API 以 便 让 其 他 的 驱动 获取 、 设 置 、 关 闭 和 使 能 稳 压 


Surucrregulavor “ regulator get(sbEuctdevrce- *dev, ‘Const Ghar *10)7 
scrPucbregulator- * devil regulator Geuleuructdevyice “dev, -conse char xd 
Serao regu lalor a regulator ger sxcluszwetstrucbtdevlice “dey; Const. Char Sed 
VOIlcregulgtor c-put(sotrüucLtreogulator *reguldquor); 

vosddevm regulator pus(structregulator *regulator); 

rntregulator enable(strucutregulator. *regulgtor); 

Inerequlavor drsabte(structregulator regulator); 
intregulator seu -volleqe(structregulavor regulators- Ln MIn uVg alma x UV)? 
Pnbregulstor- get volrtage(strucbtregulator *regulacor); 


jS TH Bt xr APIS SCE GPIOT z2HJgpio request O 、 时 钟 子 系统 的 clk get ©) ~ dmaengine 
子 系统 的 dmaengine submit O 等 相当 ， 属 于 基础 设施 。 


19.0 OPP 


现今 的 SoC 一 般 包 含 很 多 集成 组 件 ， 在 系统 运行 过 程 中 ， 并 不 需要 所 有 的 模块 部 运行 于 最 局 频 京 和 最 
局 性 能 。 在 SoC 内 ， 茶 些 domain 可 以 运行 在 较 低 的 频率 和 电压 下 ， 而 其 他 domain 可 以 运行 在 较 和 高 的 频 京 和 
电压 下 ， 某 个 domain 所 文 持 的 < 频 京 ， 电 奈 > 对 的 集合 被 称 为 Operating Performance Point, 45 OPP. 


int Opp edd(struct device *dev, unsigned long freg; unsigned long u volt; 


H av, TI OMAP CPUFreq 驱 动 的 底层 就 使 用 了 OPP 这 种 机 制 来 获取 CPU 所 支持 的 频率 和 电压 列表 。 在 
开机 的 过 程 中 ，TIOMAP4 心 户 会 注册 针对 CPU 议 备 的 OPP 表 【代码 位 于 arch/arm/mach-omap2/ 中 ) ， 如 代 
但 清单 19.10 所 示 。 


代码 清单 19.10 TI OMAP4 CPU 的 OPP 表 


lstatie struct omap opp der rnitdata omap44xx opp def list[] = 1 

Z /* MPU OPP1 - OPP50 */ 

3 OPP INITIALIZER("mpu", true, 300000000, OMAP4430 VDD MPU OPP50 UV), 

4 /* MPU OPP2 - OPP100 */ 

5 OPP INITIALIZER("mpu", true, 600000000, OMAP4430 VDD MPU OPP100 UV), 

6 /* MPU OPPS = OPP=Turoo *7 

7 OPP INITIALIZER("mpu", true, 800000000, OMAP4430 VDD MPU OPPTURBO UV), 
8 /* MPU OPP4 - OPP-SB */ 

9 OPP INITIALIZER("mpu", true, 1008000000, OMAP4430 VDD MPU OPPNITRO UV), 


12/7 ** 

13 * omap4 opp init() - initialize omap4 opp table 
14 */ 

15int init omap4 opp init (void) 


Le r = omap init opp table(omap44xx opp def list, 
19 ARRAY SIZE (omap44xx opp def list)); 


2 return. $7 

22] 

Z20eCV LCS. 2nitcalltomap4 ODD. init); 

Z4lnc. aurc Omap nit opp table(struct omap opp det *opp det, 


2 uo2 Opp def size) 

2.61 

2l m 

28 /* Lets now register with OPP library */ 

20 Lor (n = U; dc Opp. Gel sizer 13949. Opp Ceri.) 4 

30 = 

31 if (!strncmp (opp def-»hwmod name, "mpu", 3)) | 

32 "a 

mo * All current OMAPs share voltage rail and 
34 * clock source, so CPUO is used to represent 
o * The MPU-SSs 

36 ^r 

3J dev = ger Cou device (0); 

38 NT 

29 p = Opp addidev, ODDp-der- Lreg, Opp Uer- cu volt); 
40 

41 ) 

42 return 0; 

43) 


针对 与 device 结 构 体 指针 dev 对 应 的 domain 中 增加 一 个 新 的 OPP， 参 数 ffeq 和 u volti] AiZOPPX NZ HJ 29 
率 和 电压 。 


Inc. Opp enable(struct device “dey, unsigned long freq); 


Lie Opp: ULSoDLe(struot CVLoe UeYy USLonee Long Treg) 


上 述 API 用 于 使 能 和 禁止 某 个 OPP， 一 旦 被 禁止 ， 其 available 将 成 为 false， 之 后 有 设备 驱动 想 设置 为 这 
个 OPP 残 不 再 可 能 了 。 臂 如， 当 识 度 超过 未 个 范围 后 ， 系 统 不 允许 1GHz 的 工作 频率 ， 可 采用 类 似 下 面 的 
代码 实现 : 


LE OM  Geme > tenp hgh: CHIreSn) 1 
/* Disable 1GHz if it was enabled */ 
rou. read loek()7 
Opp. = Opp- Lind: Bred. exace (dev; 1000000000). LEE), 
rou Tedd UnLock) 
[5 wet Error check, +7 
pt (MIS BERR(ODDP)) 
ret = opp disable (dev, 2000000000); 
else 
SOLO Cry cOme hing else; 


} 


上 述 代码 中 调用 的 opp_find freq exact O 用 于 寻找 与 一 个 确定 频 京 和 available 毗 配 的 OPP， 其 原型 
为 : 


SCEL Opp: “Opp T tied: Treg exacbisLrucb GCevice “dev, unsigned slong. red; 
bool available); 


另外 ，Linux 还 提供 两 个 变 体 ，opp find freq floor O 用 于 寻找 1 个 OPP， 它 的 频率 同上 接近 或 等 于 指 
定 的 频率 ; opp find freq ceil © 用 于 寻找 1 个 OPP， 它 的 频率 同 下 接近 或 等 于 指定 的 频率 ， 这 两 个 函数 的 
原型 为 : 


Struct- Opp. TOPP tind: treq LLOOP(SLPDCL ee 
Struc’ Opp OPP- Indi freq ‘cert (stsucy. device. “dey, Unsigned long. ITPS) 


我 们 可 用 下 面 的 代码 分 别 寻 找 1 个 设备 的 最 大 和 最 小 工作 频率 : 


freq = ULONG- MAX; 

peu. reac: Lock); 

opp find freq tloor(dev; Gired); 
feu rego -unlock 

treg = 0j 

fou redo LOCK); 

Opp: bund. freq ocezxlidev, cireq) 
ECU. Tead UNIOCK() 4 


在 频率 降低 的 同时 ， 支 撑 该 频率 运行 所 需 的 电压 也 往往 可 以 动态 调 低 ， 反 之 ， 则 可 能 需要 调 高 ， 下 面 
这 两 个 API 分 别 用 于 获取 与 菜 OPP 对 应 的 电压 和 频率 : 


unsigned: Jong Opp get Vvoleage (struct Opp ^OPP) 
Unsigned, ong opp-get .treq (struct: OPE Opp); 


28S IT, AXXCPUFreqUE 5] A CPU Ae SAEI], EA BÉ TREN CELERE, FOE RUE 
7j: 


SOC SWI CON UO. 68g Voltage. (Ered) 


[* do things *7 
POSU read Lock () 7 
Opp = opp Lind freq ceil.(dev, &freg); 
wv = Opp get. voltage (opp) 7 
rou. read Unlock (); 
if (v) 
POJgUIMLOT Set Voltage Nsp Viz 
j* udo Other Chinga */ 


如 下 简单 的 API 可 用 于 获取 人 条 设备 所 支持 的 OPP 的 个 数 : 


int OPP get opp Count (Struce device “dev); 


HU se 2, TI OMAP CPUFreq kay E JI E a EFA S OPPIX FEAL HOR SR AL CPUPI Sc SE HY a 8 A FB Hs A 
Ko ‘EfEomap_init opp table () RACHA USI SAADVAYOPP, ETI OMAP H HYCPUFreq kay 
drivers/cpufreq/omap-cpufreq.c 中 ， 则 借助 了 快捷 函数 opp init cpufreq table () 来 根据 前 面 注册 的 OPP 建 立 
CPUFreq 的 频率 表 : 


Statie EC 


{ 


tf (tire ta lS) 
result = Opp. init cpubLreq table(mpu dev, &rreg table); 


IM ZECPUFreg JK H Er EX, vi EE Ztomap. target ©) 中 ， 则 使 用 与 OPP 相 关 的 API 来 获取 频 深 和 电压 : 


gta Ine. omap targec (Struct, cpurreg policy *policy, 
Unsigned int target cred, 
unsigned int relation) 


{ 


LI (mpu reg) 4 
opp = opp find freq ceil(mpu dev, &freq); 


volt = Opp gel volctage(topp); 


} 


drivers/cpufreq/omap-cpufreq.c 相 对 来 说 较为 规 和 拖 ， 它 在 < 频率 ， 电 压 > 表 方面 ， 在 搬 层 使 用 了 7 了 OPP， 在 
设置 电压 的 时 候 义 使 用 了 规范 的 Regulator API. 


比较 新 的 驱动 一 般 不 太 乾 欢 和 直接 在 代码 里 面 固 化 OPP 表 ， 而 是 喜欢 在 相应 的 和 点 处 这 加 operating- 
points 属 性， 如 imx27.dtsi 中 的 : 


cous’ d 
#Size-cells = «0»; 
faddress-cells = «1»; 
cpu: cpuado 4 
device type = "Opa"; 
compatible - "arm,arm926ej-s"; 
operating-points = < 
|^ Kaz uy *7 
266000 1300000 
399000 1450000 


clock-latency = «062500»; 
Clocks = "<¢elks IMX2Z7 Chik CPU DIVe; 
voltage-tolerance = <5>; 
); 
); 


如 果 CPUFreq 的 变化 可 以 使 用 非常 标准 的 regulator、clk API， 我 们 甚至 可 以 直接 使 用 
drivers/cpufreq/cpufreq-dtc 这 个 驱动 。 这 样 只 需要 在 CPU 节点 上 填充 好 频率 电压 表 ， 然 后 在 平台 代码 里 面 注 
有 册 cpufreq-dt 设 备 就 可 以 了 ， 在 arch/arm/mach-imx/imx27-dt.c、arch/arm/mach-imx/mach-imx51.c 中 可 以 找到 类 
似 的 例子 : 

static void — init imx27 dt init (void) 
———Mc— 2s 


of platform populate (NULL, of default bus match table, NULL, NULL); 
platform device. register full (<devinid); 


19.7 PM QoS 


Linux 内 核 的 PM ee AE AN , aoe SRO, APA E A aX 
性 能 的 期 性 。 一 类 是 系统 级 的 需求 ， 通 过 cpu dma latency. network latency 和 network throughput 这 些 参数 
KRE: 男 一 类 是 里 个 设备 可 以 根据 目 映 的 性 能 需求 友 起 per-deviceH 只 PM QoS 请 求 。 


在 内 核 空 间 ， 退 过 pm qos add request © rZ nu] LATE PM QoS 请 求 : 


void pm qos add request(stbPuct pm Gos request *red, 
LMG. pm- gos Class, 692 value); 


通过 pm qos update request © 函数 可 以 更 新 已 注册 的 PM QoS 请 求 : 


void pm Gos update request SEE Pm gos request. Frag; 

s32 new value); 
void pm qos update request timeout (struct pm qos request *req, s32 new value, 
unsigned long timeout us); 


通过 pm qos remove request () 函数 可 以 删除 已 注册 的 PM QoS 请 求 : 


void pm qos remove request (struct pm qos request *req); 


2° I TE drivers/media/platform/via-camera.c3X ^P T EK, HRALA Je Jer wwe P8) ay VARA 
止 CPU 进入 C3 级 别 的 深度 Idle: 


Se 了 me 


{ 


pm gos add request(scam--qos request, PM QOS CPU DMA. LATENCY 50); 


这 是 因为 ， 在 CPUIdle 子 系统 中 ， 会 根据 PM_QOS_CPU_DMA LATENCY 请 求 的 情况 选择 合适 的 C 状 
态 ， 如 drivers/cpuidle/governors/ladderc 中 的 ladder select state O 融会 判断 目标 C 状 态 的 exit latency 与 QoS 
要 求 的 关系， 如 代码 清早 19.11 所 未 。 


代码 清单 19.11 CPUIdle LADDER governor 对 QoS 的 判断 


lIStatic Inc ladder select Sstate(strucy ocpuldle driver “dry, 


2 SULIUCE. opurdbe device *dev) 

2u 

4 T 

5 int latency req - pm qos request(PM QOS CPU DMA LATENCY); 
6 

7 

8 

9 j/* Consider promotion *y 
10 ie (last idx < drve^state count = Ls 
1l |drveosrdtesLlagt ads + Lh«disabled && 
由 二 ldev->Sstates usagellast dx + 1) .diseble && 
13 last residency > last state--thresnhnold.promotion Lrme-&& 


14 drveosstatesllast azdx a Ll.exitc latency <= Tacency req) | 


| last Stave--stats.pLOmoOLLon COUNTE? 


16 last SUale=>stals-Cemolion count = 0; 

UM IL(LAaSt Scave=-srace.promorion Count 

18 last State->chresnold, Promo ion count) 1 

19 ladder do selection(ldey, last idx; Jase. idx w 1); 
20 return last Idk F |} 

21 } 

2d ) 

23 

24} 


LADDER 在 选择 是 任 进 入 更 深层 次 的 C 状 态 时 ， 会 比较 C 状 态 的 exit_latency 要 小 于 通过 
pm qos request (PM QOS CPU DMA LATENCY) 得 到 的 PM QoS 请 求 的 延迟 ， 见 代码 清单 19.11 的 第 14 


行 。 
同样 的 逻辑 也 出 现 于 drivers/cpuidle/governors/menu.c 中 ， 如 代码 清单 19.12 的 第 18~19 行 。 


代码 清单 19.12 CPUIdle MENU governor 对 QoS 的 判断 


locatio int menu select (struct opuldle driver “div, Struct, opuldle doyle *dev) 


24 

3 SLruct Menu device *daLa — € gel cpu var(ümenu devices); 

4 int latency req - pm qos request(PM QOS CPU DMA LATENCY); 

5 a 

6 "s 

J * Find the idle state with the lowest power while satisfying 
8 * Our Constraints: 

9 A 

10 for (i = CPUIDLE DRIVER STATE START; i < drv->state count; i++) { 
LI SULUCe CDuxdle Stole ~o = edrv- sbpatesrrls 

12 SGLruoct Opuldle Stave. Usage Su = .Sdev-csbates Usageli i; 
1.3 

14 if (s->disabled || su->disable) 

1:5 continue; 

26 LÍ See residency  Odta-predrctedo us) 

uU continue; 

18 LE ( Seen latency > latency reg) 

11 continue; 
20 ll (S--6xit latency * multiplier > data=- predicted us) 
21 continue; 
PA 
2. if (s->power usage < power usage) { 
24 power usage = s-»power usage; 
Za datge- last Suace: IR = 1} 
26 data=-exit us = S-cexrit latency; 
2 ) 
28 ) 
29 

aU return dara-slast.SLrace Idx? 

31} 


还 是 回 到 drivers/media/platformy/via-camera.c 中 ， 当 摄像 头 天 财 后 ， 它 会 通过 如 下 语句 和 宕 知 上 述 代 但 对 
PM QOS CPU DMA LATENCY 的 性 能 要 求 取消 : 


static imt vlacam streamon(struct file *filp, void *priv, enum v4l12 buf type t) 


{ 


Di dos remove request(isocam- qos tequestl); 


FAVA A TE Vt e DI] FP FH E QoS ELE HY I T 245 GL diidrivers/net/wireless/ipw2x00/1pw2 1 00.c. 


drivers/tty/serial/omap-serial.c. drivers/net/ethernet/intel/el 000e/netdev.c=# « 


应 用 程序 则 可 以 通过 同 /dewcpu dma latency 和 /dev/network latency 这 样 的 设备 节点 写 入 值 来 发 起 QoS 的 
性 能 请 求 。 


19.8 ”CPU 热 插 拔 


Linux CPU 热 插 拔 的 功能 已 经 存在 相当 长 的 时 间 了 ，Linux 3.8 之 后 的 内 核 里 一 个 小 小 的 改进 束 是 CPU0 
也 可 以 热 插 拔 。 


一 般 来 讲 ， 在 用 户 空 间 可 以 通过 /sys/devices/system/cpu/cpun/online 市 点 来 操作 一 个 CPU 的 在 线 和 次 


线 : 

# echo 0»5/sys/devices/system/cpu/cpu3/online 

CPU 3 is now offline 

# echol >/sys/devices/system/cpu/cpu3/online 

通过 echo0>/sys/devices/systemycpu/cpu3/online 关 团 CPU3 的 时 候 ，CPU3 上 的 进程 都 会 被 迁移 到 其 他 的 

CPU 上 ， 以 保证 这 个 拔除 CPU3 的 过 程 中 ， 系 统 仍然 能 正 利 运行 。 一 旦 通过 echo 
1>/sys/devices/Systemycpucpu3/online 再 次 开 司 CPU3，CPU3 又 可 以 参与 系统 的 负载 均衡 ， 分 担 系 统 中 的 任 
务 。 


在 验 入 式 系 统 中 ，CPU 热 插 拔 可 以 作为 一 种 省 电 的 方式 ， 在 系统 负载 小 的 时 候 ， 动 态 天 闭 CPU， 在 系 
统 负 载 增 大 的 时 候 ， 再 开局 之 前 离线 的 CPU。 有 目前 各 个 必 片 公司 可 能 会 根据 上 自身 SoC 的 特点 ， 对 内 核 进行 
， 来 实现 运行 时 “ 热 插 撤 ”。 这 里 以 Nvidia 的 Tegra3 为 例 进 行 说 明 。 


Tegra3 玉 用 vSMP CvariableSymmetric Multiprocessing) 32%, 46 5^ Cortex-A9Ab 3E as, FLAS Ay 
性 能 设计 的 G 核 ，1 个 为 低 功 耗 设计 的 LP 核 ， 如 图 19.7 所 示 。 


Core 1 


Core 3 Core 4 





图 19.7 Tegra3 Hy) AR TJ 


在 系统 运行 过 程 中 ，Tegra3 的 Linux 内 核 会 根据 CPU 负载 切换 低 功 耗 处 理 器 和 高 功 耗 处 理 器 。 除 此 之 
外 ，4 个 高 性 能 ARM 核 心 也 会 根据 运行 情况 ， 动 态 借 用 Linux 内 核 文 持 的 CPU 热 插 拔 进 行 CPU 的 插入 / 拔 出 


用 华硕 EeePad 运 行 遍 负载 、 低 负载 应 用 ， 通 过 dmesg 谷 看 内 核 消 息 也 硝 实 验证 了 多 核 的 热 插 拔 以 及 G 
核 和 LP 核 之 间 的 动态 切换 : 


104626.426957 
1O0dOo2T 4271412 
104627.427670 
1046239393/0053 
LU 4 620 33/01 


<4> 
</> 
<4> 
<4> 
<4> 


[ ] CPU1: Booted secondary processor 
[ ] tegra CPU; force EDP limit 720000 kHz 
[ ] CPU2: Booted secondary processor 
[ ] stop machine cpu stop cpu=0 
[ | Stop machine cpu. stop <cpu=2 
<4> [1046200270591 Stop Machine cpu SLOP epus 
«4»[104628.537702] | stop cpus: wait for completion timeoutt 
S47 [1046028.59/050] . SLOp Cous: sempe). done.executed-l done.ret eU- 
<5>[104628.537960] CPU1: clean shutdown 
<d> 11046302.53/092). ‘Stop machine cpu stop opus 
«4»[1046530.,5537172] ‘stop machine cpu stop cpu-2 
SeIDLLOS6230.,59 399] . Stop cpus: wait ror completion timeout 
<4>[104630.538060] Stop CPUS: Smp-9 ‘done. exeCcuved=1 done.ret 0= 
<5>[104630.538203] CPU2: clean shutdown 
[ ] tegra watchdog touch 


<4> L1904031,300904 


高 性 能 处 理 嚣 和 低 功 耗 处 理 器 切换 : 


LoF L04066: 199152] LP=>Gs ProLloy 22 Us, switch 2129 us, GODLIlog 24 u$, total 2175 us 


[ ] 
€&ac—[104667.,95D7273] -G=>LP?. prolog 18 us, switch 157 us, epilog 25 us, total 200 us 
«4»[104671.407008] tegra watchdog touch 
«4»[104671.408816] nct1008 get temp: ret temp=35C 
<39> [10460719390600] LP-»G: prolog 17 us, switch 2127 us, epilogo 22 us, total 2160 us 
[ ] 


«435[104072.939091] G=>LP:; prolog 18 us, switch 156 us, &pilog 24 us, total 1909 us 


在 运行 过 程 中 ， 我 们 发 现 4 个 G 核 会 动态 热 插 拔 ， 而 4 个 G 核 和 1 个 LP 核 之 间 ， 会 根据 运行 负载 进行 集 
群 切 的 。 这 一 部 分 都 是 在 内 核 里 面 实现 的 ， 和 tegra 的 CPUF req 驱 动 (DVFS3KS)) ARR. FART n] 
JL http://nv-tegra.nvidia.com/gitweb/?p=linux-2.6.git;a=tree;f-arch/arm/mach-tegra;h=e5d 1 ff2;hb=rel- 1417 


1. 如 何 判 新 目 己 征 什么 核 


每 个 核 都 可 以 通过 调用 is Ip cluster C) 来 判断 当前 正在 执行 的 CPU 是 LP 还 是 G 处 理 右 


Static inline unsigned ant is Ip cluster (void) 
{ 
unsigned int reg; 
reg =readl (FLOW CTRL CLUSTER CONTROL); 
return (reg& 1); /* 0 == G, 1 == LP */ 


EUGEFLOW CTRL CLUSTER CONTROL 寄存 器 判断 自己 是 G 核 还 是 LP 核 。 
2.G 核 和 LP 核 集群 的 切换 时 机 


[场景 1」 何 时 从 LP 核 切 换 给 G 核 ， 当 前 执行 于 LP 集群 ，CPUFreq 驱 动 判断 出 LP 核 需 要 增 频率 到 超过 
高 值 门限 ， 即 TEGRA HP UP: 


OaserlBbGRA HP Ur: 
it (ls lp clusterit) €& Tne Lp) 1 
Lol ok set Parent (Opu elk, cpu g Clk)) 4 
hp stats update(CONFIG NR CPUS, false); 
hp stets updare(0, true); 
/* catch-upwith governor target speed */ 
tegra cpu Set speed cap (NUL); 


[场景 2」 何 时 从 G 核 切换 给 LP 核 ， “SHAT Gt. CPUFreqJEz/I3] Br EH Ji GAZ i 8 ACH SUMI F 
低 值 门限 ， 即 TEGRA HP DOWN， 且 最 慢 的 CPUID 不 小 于 nr cpu ids (实际 上 代码 逻辑 跟踪 等 价 于 只 有 


CPU0 还 活 看 的 情况 ) : 


caseTEGRA HP DOWN: 
cpu- Tegra get slowest cpu ni); 
Irfopu < nf Cpu ads) 4 


relse TT( LS lp cluster() es Luo Lp) 4 

LL(DOlkE Set parent(opu clk, cpu lp ccLk)) 1 

hp. Stats update (CONFIG NR CPUS, true); 

hp stets updare(0;, talse) ; 

/* catch-upwith governor target speed */ 

Lpegra Cou Seu speed. cap{ NULL), 
} else 

queue delayed work ( 

hotplug wq, &hotplug work, down delay); 


break; 


Dene by ERA fEclk set parent O 更 改 CPU 的 父 时 钟 里 面 ， 这 部 分 代码 写 得 比较 不 好 ， EK ZA 
宛 成 n 个 功能 ， 实 际 上 上 不仅 切 换 了 时 钟 ， 还 切换 了 G 和 LP 集 群 : 
CLK Set parenticpu clk, opu lp cik) => 
tegra- Cou Ompli Clk Seu. Parent (SC ructolk ~O; Sslruce Clk p) => 
tegra cluster Control (unsigned Int us, unsigned int fla98) => 


tegra cluster Swatch prolog() =] 
tegra cluster switch epilog() 


3.G AS SAVER 
fa ETT GRAIN SI AST, HUP. 


L355x3] SHAT T GS 8t, CPUFreq 3k ai Fi Br th AR GA rm e b URS PIKE IPR, RE 
TEGRA HP DOWN， 且 最 慢 的 CPUID 小 于 nr epu ids“〈 实 际 上 等 价 于 还 有 两 个 或 两 个 以 上 的 G 核 活着 的 情 
) ， 关 闭 最 慢 的 CPU， 留 意 tegra get slowest cpu n O 不 会 返回 0， 这 和 意味 着 CPU0 要 么 活着 ， 要 么 切换 
给 了 LP 核 ， 对 应 于 [场景 2」: 
GaseTEGRA HP DOWN: 
opus Tecra get slowest cou I 
if (cpu < mr cpu ids) 4 
up = Talse; 
queue delayed work ( 


hotplug wq,&hotplug work, down delay); 
hp stats updateiopuy, False); 


[场景 4」 SAT TORE, CPUFreq3X 2/173] Br th 2 GER v e Vc EK Fee BR, B 
TEGRA HP UP， 如 果 负 载 平 衡 状 态 为 TEGRA CPU SPEED BALANCED， 再 开 一 个 核 ， 如 果 状 态 为 
TEGRA CPU SPEED SKEWED， 则 关 一 个 核 。TEGRA CPU SPEED BALANCED 的 含义 是 当前 所 有 G 核 
要 求 的 频率 都 高 于 最 高 频率 的 350%，TEGRA CPU SPEED SKEWED 的 含义 是 当前 至 少 有 两 个 G 核 要 求 的 
频率 低 于 门限 的 25%， 即 CPU 频 紊 的 要 求 在 各 个 核 之 间 有 倾斜 |。 


CaselEGRA, AE UP: 
Le (is. Lp Chuster() ee ino 1p) 1 


else { 
switch (Legra cpu speed balance()) { 


/* cpu speed is up and balanced - one more on-line */ 
case TEGRA CPU SPEED BALANCED: 
cpu =cpumask next zero(0, cpu online mask); 
Lt(opu <ni cpu cds) 4 
up: =Crue; 
hp stats Update (cpu, true); 
j 
break; 
/* cpu speed is up, but skewed - remove one core */ 
case TEGRA CPU SPEED SKEWED: 
cpu =tegra get slowest cpu n(); 
ii (opa € nr cpu ide) { 
up =false; 
hp stats-upastetcopu, false); 
j 
break; 
/* cpu speed is up, butunder-utilized = do nothing */ 
case TEGRA CPU SPEED BIASED: 
default: 
break; 


} 


上 述 代 人 码 中 TEGRA CPU SPEED _BIASED 足 丛 的 售 义 是 有 1 个 以 上 G 核 的 频 这 低 于 最 局 频率 的 50% 但 
是 还 未 形成 “SKEWED”* 条 件 ， 即 只 是 “BIASED”， 还 没有 达到 “SKEWED” 的 程度 ， 因 此 暂时 什么 都 不 做 。 


目前 ，ARM 和 Linux 社 区 都 在 从 事 关 于 big.LITTLE 架 构 下 ，CPU 热 插 拔 以 及 调度 器 方面 有 针对 性 的 改 
进 工 作 。 在 big.LITTLE 架 构 中 ， 将 高 性 能 且 功 耗 也 较 高 的 Cortex-A15 和 稍 低 性 能 且 功 耗 低 的 Cortex-A7 进 行 
了 结合 ， 或 者 在 64 位 下 ， 进 行 Cortex-AS7 和 Cortex-AS3 的 组 合 ， 如 图 19.8 所 示 。 


big.LITTLE 架 构 的 设计 旨 在 为 适当 的 作业 分 配 恰当 的 处 理 句 。Cortex-A1S 处 理 硕 是 目前 已 开 及 的 性 能 
最 高 的 低 功 耗 ARM 处 理 器 ， 而 Cortex-A7 处 理 器 是 目前 已 开 友 的 最 节能 的 ARM 应 用 程序 处 理 器 。 可 以 利用 
Cortex-A15 处 理 器 的 性 能 来 承担 繁重 的 工作 负载 ， 而 用 Cortex-A7 可 以 最 有 效 地 处 理智 能 手机 的 大 部 分 工作 
负载 。 这 些 操作 包括 操作 系统 活动 、 用 户 弄 面 和 其 他 持续 运行 、 始 终 连 接 的 任务 。 


GIC-400 
Interrupts Í Í Interrupts 
Cortex-A15 Cortex-A15 Cortex-A7 Cortex-A7 
Core Core Core Core 
IO 
Coherent 
L2 L2 Master 


CCI-400 (Cache Coherent Interconnect) 
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图 19.8 ”ARM 的 big.LITTLE 架 构 


三 性 在 2013 年 CES (国际 消费 电子 展 ) 大 会 上 友 布 了 Exynos 5Octa 8 核 移动 处 理 颖 ， 这 蒜 处 理 器 也 是 


X Hijbig.LITTLEZ&4JIS] 8 — SX CPU. 


19.9 TEE SIRAM 


Linux 文 持 STANDBY、 挂 起 到 RAM、 挂 起 到 便 盘 等 形 却 的 待机 ， 如 图 19.9 所 示 。 一 般 的 能 入 去 产品 仅 
仪 只 实现 了 挂 起 到 RAM 〈 也 简称 为 S2ram， 或 利 简 称 为 STR) ， 即 将 系统 的 状态 保存 于 内 存 中 ， 并 将 
SDRAM 首 于 目 刷 新 状 在 ， 行 用 户 按键 等 操作 后 再 重新 恢复 系统 。 少 数 通 入 式 Linux 系 统 会 实现 挂 起 到 使 盘 
CBIPRSTDO ， 它 与 挂 起 到 RAM 的 不 同 是 s2ram 并 不 关机 ，STD 则 把 系统 的 状态 体 持 于 做 盘 ， 然 后 藉 财 整 
个 系统 。 
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图 19.9 Linux 的 待机 模式 





在 Linux 下 ， 这 些 行为 通常 是 由 用 户 空 间 触 发 的 ， 通 过 同 /sys/power/state 写 入 mem 可 开始 挂 起 到 RAM 的 
流程 。 当 然 ， 许 多 Linux 产 品 会 有 一 个 按键 ， 一 按 束 进入 挂 起 到 RAM。 这 通常 是 由 于 与 这 个 按键 对 应 的 输 
入 设备 驱动 汇报 了 一 个 和 电源 相关 的 input_event， 用 户 空 间 的 电源 省 理 daemon 进 程 收 到 这 个 事件 后 ， 再 触 
发 s2ram 的 。 当 然 ， 内 核 也 有 一 个 INPUT APMPOWER 驱 动 ， 位 于 drivers/input/apm-power.c 下 ， 它 可 以 在 内 
核 级 别 侦 听 EV_PWR 类 事件 ， 并 通过 apm queue event (APM USER SUSPEND)〉 自 动 引 发 82ram: 


Static void System power, event (unsigned int. keycode) 
{ 
Switch (keycode) { 
Gase KEY SUSPEND: 
apm queue event (APM USER SUSPEND) ; 
pr info("Requesting system suspend...\n"); 
break; 
default: 
break; 
j 

j 
static void apmpower event(struct input handle *handle, unsigned int type, 
unsigned int code, int value) 
Las 
Switch (type) { 
case EV PWR; 

System power event (code); 
break;. 

j 

j 


在 Linux 内 核 中 ， 大 致 的 挂 起 到 RAM 的 挂 起 和 恢复 流程 如 图 19.10 所 示 《〈 军 小 的 操作 包括 同步 文件 系 
统 、freeze 进 程 、 设 备 驱 动 挂 起 以 及 系统 的 挂 起 入 口 守 ) 。 


在 Linux 内 核 的 device_ driver 结 构 中 ， 含 有 一 个 pm 成 员 ， 它 是 一 个 dev_pm ops 结 构 体 指针 ， 在 该 结构 体 


中 ， 封 闭 了 挂 起 到 RAM 和 挂 起 到 便 盘 所 需要 的 回调 图 数 ， 如 代码 请 单 19.13 所 示 。 


代码 清单 19.13 dev pm ops 


结构 体 


Struct dev pm ops 1 


1 

Z Int 
3 VOLO 
4 int 
S int 
6 Tat 
7 Int 
8 int 
9 int 
10 int 
11 lne 
12 int 
La Int 
14 Ine 
15 Int 
16 Int 
17 int 
18 int 
19 int 
20 ine 
21 int 
22 int 
23 ine 
24 int 
25} 


(*prepare) (struct device *dev); 
(*complete) (struct device *dev); 
(*suspend) (struct device *dev); 
(*resume) (struct device *dev); 
(*freeze) (struct device *dev); 
(*thaw) (struct device *dev); 
(*poweroff) (struct device *dev); 
(*restore) (struct device *dev); 
(^suspend late)(tstrucc device *dev); 
(^resume Carly) (struct. device: dev)? 
(^Ireeze Ldte)istruct device ~dev); 
(“chew Carly) (struct. Gevice “dev? 
(^powerolr date) (struct device “dev):7 
(^restore Garly) (struct device *dev); 
(^suspend noOlrq)45brucb device en 
(^resuNe nolrg)tsLruco Cevice *dev)s 
(^lIreeze nolrg)(struct device *^dev); 
("chaw noirq)í(struct device *dév); 
(^poWeFrOPIP DOLPSq)(Strsuct device "dev)g 
(^DSStODPe norrg) (seruce device "dew 
(“ran ine Suspend) (scruce device *dev); 
(^runtime resume)(sLtruct device *dev)s 
(runtime idle) (Struce device "dev 


图 19.10 实 际 上 也 给 出 了 在 挂 起 到 RAM 的 时 候 这 些 PM 回 调 函 数 的 调用 时 机 。 
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119.10 ”Linux 挂 起 到 RAM 尝 程 


目前 比较 推荐 的 做 法 是 在 platform driver、i2c driverfüspi driver 等 xXxx driver 结 构 体 实例 的 driver 成 员 


H, BER 


结构 体 的 形式 封 狼 PM 回调 冰 数 ， 并 赋值 到 driver 的 pm 字段 。 如 代码 清单 19.14 中 的 第 50 行 ， 在 


drivers/spi/spi-s3c64xx.c 中 ，platform driver 中 的 pm 成 员 被 赋值 。 


代码 清单 19.14 


设备 驱动 中 的 pm 成 员 


1#ifdef CONFIG PM SLEEP 
orati Int S3ICOdxk BPL suspend(isLtruct device dev) 


一 一 


SUPUCE SDP... Master “Master = dev get drvddqtatdevos 
Strüct ÉSo064xxX Spi driver data “sdd = Spr master get devdata (master); 


lut reL = Spi Master Suspend (master)? 
if (ret) 
FeLUID TOC} 


if (lpm runtime suspended(dev)) 4 

CLE Gi Sable wunprepare(sdd= elk); 

GLK disable unprepare(Sdd=>sre clk); 
j 


EB!pDp|ppmBbbmibÀAbm 
OY O1 4» CQ) N PB O (o ATA O1 4 C9) 


sdd-»cur speed = 0; /* 输出 时 钟 停 止 */ 


17 

18 return: 0; 

19] 

20 

2 acele hb S3CO4Kx Spi resume(sLtuct device *dev) 
Zo 

25 STLUCL BP master *“masver = dev get drvdaca (dev); 
24 SULDUCL S2004XX Spl driver data “sdd = Spi master get devdara(mascver); 
290 SLLEUGL SSCO4xXx Spr LO “Sci. = pdd- Cntr Q2POY 
26 

Zi XX (8017-09 gpio) 

28 Sori-2cIg glo]? 

29 

30 if (!pm runtime suspended(dev)) q 

94 CLK Prepare ‘enable (sad->sre Clk); 

Sui CLK prepare enable sade>ciLk)7 

Do. 

34 

39 823004xx Spr DwWinteisdd, Sd port 2007 

36 

3? TetUurn Spi Mester resumnei(mascter); 

28] 

39#endif /* CONFIG PM SLEEP */ 

40 

Alstatic const struct dev pm ops s3c64xx spi pm = { 


42 SET SYSTEM SLEEP PM OPS5(s3có4xx spi suspend, s3co4xx spi resume) 
43 SET RUNTIME PM OPS(s3c64dxx spi runtime suspend, 


44 s3co4xx spi runtime resume, NULL) 

aor 

46 

A/Stlatic struct platrorn driver sc0dxx Sp. driver = 4 
48 .driver = { 

49 .name- "s3c604xx-spi", 

o0 .pm = &s3c64xx spi pm, 

51 OF Match table = orf match ptri(soco4xx spri dt macch), 
92. Ju 

93. probe = $3004Xx Spi. probe; 

34 .remove = s3c64xx spi remove, 

SO sid table = 55004xx Spi driver de, 

26]; 


s3c64xx spi suspend () 完成 了 时 钟 的 禁止 ，s3c64xx spi resume O 则 完成 了 硬件 的 重新 初始 化 、 
时 钟 的 使 能 等 工作 。 第 42 行 的 SET SYSTEM SLEEP PM OPS 是 一 个 快捷 宏 ， 它 完成 suspend、resume 等 成 


D PR BCH AUI : 


#define SET SYSTEM SLEEP PM OPS (suspend fn, resume fn) \ 


.Suspend = suspend fn, ^ 
.resume = resume fn, \ 
.freeze = suspend fn, \ 
.thaw = resume fn, \ 
.poweroff = suspend fn, ^ 
tore = resume Th, 


除了 上 述 推行 的 做 法 以 外 ， 在 platform driver. i2c driver. spi driver xxx driver 结 构 体 中 仍然 保留 了 
过 时 (Legacy) 的 suspend、resume 入 口水 数目 前 不 再 推荐 使 用 过 时 的 接口 ， 而 是 推荐 赋值 xxx_driver 中 
的 driver 的 pm 成 员 ) ， 辟 如 代码 清 时 19.15 给 出 的 platform driver 束 包含 了 过 时 有 的 suspend、resume 竺 。 


代码 清单 19.1$ 设备 驱动 中 过 时 的 PM 成 员 函 数 


CPUC pvaviorm CIxves.- 

int: (* probe). (Struct Plat orm device 7); 

dnb. (*LeMOve) (SeLuce pLsbrtorm Oevbce-T797 

void (*“Shucdown) (struct: platform device ^); 

rnt (*suspend)(strucct plaurorm.devriee =; pm message t state); 
rnt" (resume) (SC ruc: platrorm Ue LG miy 

SEPucuodewlge drven Orve 

CONSt: Struct plattorm device id *rd table; 


(O Om) OY O1 4» WN 


—— 
BE 


在 Linux 的 核心 层 中 ， 实 际 上 是 优先 选择 执行 xxx _ driver.driver.pm.suspend O 成 员 图 数 ， 在 前 者 不 存 
在 的 情况 下 ， 执 行 过 时 的 xxx driversuspend () ， 如 platform pm suspend O) 的 逻辑 如 代码 清单 19.16 所 


ZJN o 

代 但 请 单 19.16” 张 劲 核心 层 寻找 PM 回 调 的 顺序 
Lin plar orm pm suspendostruct device: “dey) 

24 

3 Struct’ devsce- ODbIver *dry = udeve?drrbiver;. 

4 int ret - 0; 

3 

6 if (!drv) 

J return 0; 

8 

9 E- AAEN 0 “4 
10 if (drv->pm->suspend) 
LE ret = drv->pm->suspend (dev); 
d } else | 
103 fet — platrorsm legacy suspena (dev, PM SE .sSUSPEND); 
14 } 
Eo 
16 return ret; 
14 


一 般 来 讲 ， 在 设备 驱动 的 排 起 入 口 国 数 中 ， 会 关 财 设备 、 天 闭 该 设备 的 时 钟 输入 ， 甚 到 是 关闭 设备 的 
电源 ， 在 恢复 时 则 完成 相反 的 的 操作 。 在 挂 起 到 RAM 的 挂 起 和 恢复 过 程 中 ， 系 统 恢复 后 要 求 所 有 设备 的 
驱动 都 工作 正常 。 为 了 调试 这 个 过 程 ， 可 以 使 能 内 核 的 PM_DEBUG 选 项 ， 如 果 想 在 挂 起 和 恢复 的 过 程 
中 ， 看 到 内 核 的 打印 信息 以 关注 具体 的 详细 流程 ， 可 以 在 Bootloader 传 递 给 内 核 的 bootargs 中 设置 标志 


no console suspend. 


在 将 Linux 移 西 到 一 个 新 的 ARM SoC 的 过 程 中 ， 最 终 系 统 挂 起 的 入 口 需 由 心 厂 供应 商 在 相应 的 
arch/arm/mach-xxx 中 实现 platform_ suspend ops 的 成 员 函 数 ， 一 役 主 要 实现 其 中 的 enter 和 valid 成 员 ， 并 将 整 
个 platform suspend ops 结 构 体 通过 内 核 通用 API suspend set ops O 注册 进 系 统 ， 如 archy/arm/mach- 
prima2/pm.c 中 prima2SoC 级 挂 起 流程 的 逻辑 如 代 人 码 清 早 19.17 所 示 。 


代码 清单 19.17 系统 挂 起 到 RAM 的 SoC 级 代码 


人 
d 
3 switch (state) { 
case PM SUSFEND MEM; 
olrfsoc pre suspend power OLE)? 


5 

6 

7 outer ftush alLlb( 

8 outer -darsab >， 

9 LR iGO 222: NS 

Q cpu suspendio, Surisoc finish. suspend); 
由 Outer resume () 7 


12 break; 


NS default: 

14 return -EINVAL; 

15 } 

1:6 return 0; 

lw. 

Le 

I9: X UdgLIOo OONSt SLIUCL platform suspend -ODpS si risoc pH Ope - 4 
20 NCSL = Droe Dn ener, 

2k «Valid = ‘suspend valid only mem, 
2 

VAS 

24 Ane — nit Sirrsoc pm ane (Vor) 

29. f 

2:6 Suspend set OpsS(esirrsoc pm ops); 
2 return 0; 

20 } 


上 述 代 码 中 第 $ 行 的 sirfsoc pre suspend power off © 的 实现 如 代码 清单 19.18 所 示 ， 它 会 将 系统 恢复 
回来 后 重新 开始 执行 的 物理 地 址 存 入 与 SoC 相 关 的 寄存 器 中 。 与 本 例 对 应 的 寄存 器 为 
SIRFSOC PWRC SCRATCH PADI, FiA f virt to phys (cpu resume) 。 在 系统 重新 恢复 
中 ， 会 执行 cpu resumeix EcL 3m, JEXET] EERE o 


代码 清单 19.18 ” SoC 设置 恢 复 回来 时 的 执行 地 址 


ET 


2 { 

3 32 Wakeup: entry = Vite CO phys (cpu resume); 

4 

9 SITrISOG Pb robro wEpbeliwdakeugp enetrve- SHppsoclpWEC base: 7 
6 OIBESOC PWRC SCRATCH PADI) 7 

7 

8 ORDISOG Sec Wakeup: Source)? 

9 
10 SIrrcisoc set sleep modet9oIRESOC DEEP SLEEP MODE); 
LL 
LZ fet urn O; 
La 


而 cpu_suspend (0, sirfsoc finish suspend) 以 及 其 中 调用 的 与 SoC 相 天 的 用 汇编 实现 的 函数 
sirfsoc finish suspend O) 真正 完成 最 后 的 符 机 并 将 系统 置 于 深度 睡眠 ， 同 时 置 SDRAM 于 目 刷 新 状态 的 过 
程 ， 有 基体 的 代码 高 度 依赖 于 特定 的 必 上 族 ， 其 实现 一 役 是 一 段 汇 编 。 


19.10 ”运行 时 的 PM 


在 前 文 给 出 的 dev_ pm ops 结 构 体 中 ， 有 3 个 以 runtime 开 头 的 成 员 函 数 : runtime suspend () 、 
runtime resume () 和 runtime idle CO) ， 它 们 辅助 说 备 完 成 运行 时 的 电源 党 理 : 


struct, Gey pn ops | 


int (*runtime Suspend) (struct device "dev)s 
Int. (*unmLtime Presume) (Struct device “devy).; 
int (“runtime idle) (struce device devis 


运行 时 的 PM 与 前 文摘 述 的 系统 级 挂 起 到 RAM 时 候 的 PM 不 太一 样 ， 它 是 针对 单个 设备 ， 指 系统 在 非 
睡眠 状态 的 情况 下 ， 某 个 设备 在 空闲 时 可 以 进入 运行 时 挂 起 状态 ， 而 在 不 是 空闲 时 执行 运行 时 恢复 使 得 设 
备 进 入 正常 工作 状态 ， 如 些 ， 这 个 设备 在 运行 时 会 省 电 。Linux 运 行 时 PM 了 最早 古 在 Linux2.6.32 内 核 中 仆 合 
并 的 。 


Linux 提 代 了 一 系列 API， 以 便于 设备 可 以 声明 上 自己 的 运行 时 PM 状态 : 
int pm runtime suspend(struct device *dev); 
引发 设备 的 挂 起 ， 执 行 相关 的 runtime suspend O) AX. 


inc pm schedule suspend(struct device “dev; unsigned anc delay); 


“调度 ”设备 的 挂 起 ， 延 迟 delay 坚 秒 后 将 挂 起 工作 挂 入 pm_wq 等 竺 队列 ， 结 果 等 价 于 delay 坚 秒 后 执行 相 
天 的 runtime suspend () eA. 


ITE pm xequest- autosuspendi(strucet device *dey); 


“调度 "设备 的 挂 起 ， 自 动 挂 起 的 延迟 到 后 ， 挂 起 的 工作 项 目 被 自动 放 入 队列 。 


int pm runtime resume(struct device *dev); 


引发 设备 的 恢复 ， 执 行 相关 的 runtime resume O PA. 


int pu request resume (Struct device dev)? 


发 起 一 个 设备 恢复 的 请 求 ， 访 请求 也 是 挂 入 pm_wq 等 待 队 列 。 


imt pm runtime a2dievstructe device dev) 


引发 设备 的 空闲， 执行 相关 的 runtime ide O rS. 


Int pm request rdle(struct -devace *dey)'; 


发 起 一 个 设备 空闲 的 请 求 ， 访 请求 也 是 挂 入 pm_wq 等 竺 队列 。 
void pm runtime enable(struct device *dev); 


使 能 设备 的 运行 时 PM 文 持 。 


Le “OM Um disables truet device dev) 


花 止 说 备 的 运行 时 PM 文 持 。 


PIU. pm rUn Lame GOCO UCE device: *dev)y 
Ln cpm run rne get Synetsubuco Cevice: "dev 


增加 设备 的 引用 计数 Cusage count) , 3Xx2S T elk get O ， 会 间接 引 友 设备 的 


runtime resume () 。 


LhE Du runerne- pur (Str uce device dew)’; 
Ic: DN :untrme pub Sye (eC et device *dey) 


减 小 设备 的 引用 计数 ， 这 类 似 于 clk put O ， 会 间接 引发 设备 的 runtime idle O 。 


我 们 可 以 这 样 简 单 地 理解 Linux 运 行 时 PM 的 机 制 ， 每 个 设备 《总 线 的 控制 器 自身 也 属于 一 个 设备 ) 都 
有 引用 计数 usage count 和 活跃 子 设备 (Active Children， 子 设备 的 意思 就 是 该 级 总 线 上 挂 的 设备 ) 计数 
child_count， 当 两 个 计数 都 为 0 的 时 候 ， 吏 进入 空闲 状态 ， 调 用 pm_ request idle (dev) 。 当 设备 进入 空闲 
状态 ， 与 pm request idle (dev) 对 应 的 PM 核 并 不 一 定 直接 调用 设备 驱动 的 runtime_suspend() ， 它 实际 
上 在 多 数 情 况 下 是 调用 与 该 设备 对 应 的 bus_type 的 runtime idle © 。 下 面 是 内 核 的 代码 逻辑 : 


Slacac: pm Callback v.p ger Callpa Ck Struct device “dev, CIZE Eo. OLrISeL) 
{ 

pm celloaok © Cb; 

CONS. STVUCE -dev pu “Ops; 

if (dev-»pm domain) 

ops: = ¢dev=-pm domain=-oOps; 

else if (dev->type && dev->type->pm) 
ops = dev->type->pm; 

else if (dev->class && dev->class->pm) 
Ops = dev-»class-»pm; 

else if (dev->bus && dev->bus->pm) 

ops = dev->bus->pm; 


else 

ops = - NULE; 

if (ops) 

co = “(pm Callback...) ((vone. “Opis: F CO Oicset) 
else 

GH NULL; 


if (!cb && dev->driver && dev->driver->pm) 
chy = * (om callback ”tere €*)dgewesdrivere pir a CD O0r:5995) 
return cb; 


} 


据 此 可 知 ，bus type 级 的 回调 函数 实际 上 可 以 被 pm_domain、type、class 敌 兰 反 ， 这 些 都 统称 为 和子 系 
Zt. bus types T AAA A runtime idle O 行为 完全 由 相应 的 总 线 类 型 、 设 备 分 类 和 pm domain Aik 
定 ， 但 是 一 般 的 行为 是 子 系 统 级 别 的 runtime idle O 会 调度 设备 驱动 的 runtime suspend () 。 


在 具体 的 设备 驱动 中 ， 一 般 的 用 法 则 是 在 设备 驱动 probe() 时 运行 pm_runtime enable O 使 能 运行 
时 PM 文 持 ， 在 运行 过 程 中 动态 地 执行 pm runtime get xxx () -> 做 工作 ->pm runtime put xxx ©) ”的 友 
列 。 如 代码 请 单 19.19 中 的 drivers/watchdog/omap wdt.cOMAPH 4! IJJ IK]. fEomap wdt start © 中 局 动 


了 pm runtime get sync () ， 而 在 omap wdt stop ©) 中 调用 了 pm runtime put sync () 。 
代码 清单 19.19 ”运行 时 PM 的 pm runtime get ©) 和 pm runtime put ©) 


lstatic Int “OmMap- woe start (struct: watchdog device “wdog) 


3 struct omap wdt dev *wdev = watchdog get drvdata (wdog); 
4 void “Lomem “base: = wdev--2Dbase; 

5 

6 mutex lock (&wdev->lock); 

7 

8 wdev-»omap wdt users = true; 

9 

10 pm runtime get sync(wdev-»dev); 

LI 

12 A initialize prescaler *7 

1:5 while (readl relaxed(base + OMAP WATCHDOG WPS) & Ox01) 
14 CpG: Telak) 

do MUS 

16 mutex unlock(&wdev-»lock); 

E 

1:8 return. 0; 

294 
20static int omap wdt stop(struct watchdog device *wdog) 
Z4 
ZZ struct omap wdt dev *wdev = watchdog get drvdata(wdog) ; 
ZS 
24 mutex lock (&wdev->lock); 
25) omap wdt disable (wdev); 
26 pm runtime put sync (wdev-»dev); 
27 wdevesomap- wat users = Talse; 

28 mutex unlock (&wdev->lock) ; 

29 return 0; 

30 } 

Sal 

"tatLe CONS, SLEUCE watchdog. ops cmap wd Gpo = 4 

33 .owner = THIS MODULE, 

34 patart = MAP Wak, Start; 

DAT .Stop = OMap: wd StD; 

36 OLN = omap wdt ping, 

37 Set CAMEOUL = omap wdt set timeout, 

38 } 


上 述 代码 第 10 行 的 pm runtime get sync (wdev->dev) 告诉 内 核 要 开始 用 看 门 狗 这 个 设备 了 ， 如 果 看 
门 独 设 备 已 经 进入 省 电 模 陈 〈 之 前 引用 计数 为 0 且 执 行 了 运行 时 挂 起 ) ， 会 导致 该 设备 的 运行 时 恢复 ; 第 
26 行 告诉 内 核 不 用 这 个 说 备 了 ， 如 条 引 用 计数 变 为 0 且 活 跃 子 设备 为 0， 则 导致 该 看 门 狗 设 备 的 运行 时 持 
起 。 


在 东 些 设备 张 动 中 ， 下 接 使 用 上 述 引 用 计数 的 方 活 进 行 挂 起 、 衬 条 和 恢复 不 一 定 合适 ， 因 为 挂 起 状态 
的 进入 和 恢复 需要 一 些 时 间 ， 如 泉 设 备 不 在 挂 起 之 间 你 留 一 定 的 时 间 ， 频 素 进 出 挂 起 反而 会 市 来 新 的 开 
锁 。 因 此 ， 我 们 可 根据 情况 决定 只 有 设备 在 空间 了 一 段 时 间 后 才 进 入 挂 起 (一般 来 说 ， 一 个 一 段 时 间 没 有 
似 使 用 的 设备 ， 还 会 有 一 段 时 间 不 会 衫 使 用 )， 基 于 此 ， 一 些 设备 张 动 也 币 音 使 用 目 动 挂 动 模式 进行 编 


在 执行 操作 的 时 候 声 明 pm_runtime get O ， 操 作 完 成 后 执行 pm_runtime mark last busy O 和 
pm runtime put autosuspend OO ， 一 旦 目 动 挂 动 的 延 时 到 期 且 设 备 的 使 用 计数 为 0， 则 引 及 相关 
runtime suspend OO 入 口 函数 的 调用 。 一 个 典型 用 法 如 代码 清单 19.20 所 示 。 


代码 清单 19.20 “运行 时 PM 的 自动 挂 动 


lfoo read or write(struct foo priv *foo, void *data) 


Z1 

3 Lock(eroo-»prlvate Lock) 

4 add request to 10 gueue(roo, data); 

E Ir (Loo Sm pending Tequesta; ==. D) 

6 pm runtime get (&foo->dev) ; 

7 LI (ifoo-^r1sS suspended) 

8 LOO: process Next request (100) 7 

9 unlock(eroo-"private lock); 

19. 

11 

l2rfO00 10 Completion (Struct. foo priv *foo, Void *redg) 
13{ 

14 loeck(&foo-»private lock); 

15 LE (--rtoo-»omum pending requests == 0) 4 

16 pm runtime mark last busy(&foo-»dev); 
Ly pm runtime put autosuspend(&foo-»dev); 
18 T GLOSS 1 

19 LOO process: next reQguesti0irool. 
20 } 
al unlock (LOO privare JLock); 
22 /* 将 请 求 结 果 返 回 给 用 户 ... */ 
23} 


在 上 述 代 码 的 第 6 行 开始 进行 WO 传输 了 ， 因 此 运行 了 pm runtime get O 之 后 ， 当 IO 传输 结束 的 时 
候 ， 第 16~17 行 回 内 核 告知 该 设备 最 后 的 已 时 刻 ， 并 执行 了 pm_ runtime put autosuspend () 。 


设备 驱动 PM 成 员 的 runtime suspend O 一 般 完 成 剑 存 上 和 下文、 切 到 省 电 模式 的 工作 ， 而 
runtime resume () 一 般 完 成 对 便 件 上 电 、 恢 复 上 下 文 的 工作 。 代 人 码 清 蛙 19.21 给 出 了 一 个 drivers/spi/spi- 
p1022.c 的 案例 。 


代码 清单 19.21 运行 时 PM 的 runtime suspend/resume () ZW 


1#ifdef CONFIG PM 
2sLatro Int plLD022 runtime Suspend(struce device *dev) 


3l 

4 Struct pl022 *pl022 — dev get drvdatatdev); 
S 

6 CLK: drsable unprepare(plUZZ-^clLlk)g 

7 pDinctrl pm select idle state (dey); 

8 

9 return 0; 

10} 

UM 

IZStatLe ane LU runtime resumeistruct device devr) 
134 

14 struct pl0272 *pl1022 = dev get drvdatatdev); 
dc 

LG pincirl pm select derault statetdev)s 

17 clk prepare enable(tplo22--61€ 7 

18 

L9 return 0; 
20] 
2l#endif 
22 


2O059Ldtlc Const SLrTUCcC dev pm Ops pl022 dev pn ops = 4 
24 SET SYSTEM SLEEP PM OPS(pl027 suspend, pl0227 resume) 


25 OBI RUNTIME EM OPRS-(pl022 runtime suspend, pl022 runtime resume, NULE) 
20}; 


582547 SET RUNTIME PM OPS O 是 一 个 快捷 宏 ， 它 完成 了 runtime suspend, runtime resume 的 
赋值 动 作 ， 其 定义 如 下 : 


#define SET RUNTIME PM OPS(suspend fn, resume fn, idle fn) \ 


.runtime suspend = suspend fn, \ 
.runtime resume = resume fn, \ 
Ln he Loe i 


其 实 ， 除 了 SET RUNTIME PM OPS O 和 前 文 介绍 的 SET SYSTEM SLEEP PM OPS O), Æ 
include/linux/pm.h 中 还 定义 了 SIMPLE DEV PM OPS Ò . UNIVERSAL DEV PM OPS O 等 更 快捷 的 
A 


#define SIMPLE DEV PM OPS(name, suspend fn, resume fn) \ 
const struct dev pm ops name = ( \ 
oBI OXSTRM S LERF- PM OPSUSUSDene Lm Gesume. nm) N 
) 
#define UNIVERSAL DEV PM OPS(name, suspend fn, resume fn, idle fn) \ 
const struct dev pm ops name = { \ 
obr SYSTEM SLEEP PM-OPS(sSuspend in. resume fn) X 
SET RUNTIME PM OPS(suspend fn, resume fn, idle fn) \ 


在 内 核 里 充斥 着 这 些 宏 的 使 用 例子 。 我 们 从 UNIVERSAL DEV PM OPS O 这 个 宏 的 定义 可 以 看 
出 ， 它 针对 的 是 挂 起 到 RAM 和 运行 时 PM 行 为 一 致 的 场景 。 


19.11 总结 


Linux 内 核 的 PM 框 染 涉及 众多 组 件 ， 弄 消 楚 这 些 组 件 之 间 的 依赖 关系 ， 在 合适 的 看 眼 点 上 进行 优化 ， 
采用 正确 的 方法 进行 PM 的 编程 ， 对 改善 代码 的 质量 、 辅 助 功 耗 和 性 能 测试 都 有 极 大 的 好 处 。 


万 外 ， 在 实际 工程 中 ， 尤 其 是 在 消费 电子 的 领域 ， 可 能 有 超过 半数 的 pug 都 属于 电源 官 理 。 这 个 时 
候 ， 电 源 党 理 的 很 多 工作 束 是 在 搞定 鲁 棒 性 和 健壮 性 ， 可 以 说 ， 在 很 多 时 候 ， 这 了 束 是 个 体力 活 ， 需 要 工程 
MA E IITE 


P20% Linux 心 片 级 移植 及 上 搬 层 驱动 
本 章 导读 


本 章 主 要 讲解 ， 在 一 个 莉 的 ARM SoC 上 ， 如 何 移植 Linux。 妆 然 ， 本 章 有 的 内 容 也 适合 MIPS、PowerPC 
等 其 他 的 体系 结构 。 


*B20. LB 7c A Ms Er 28 I Linux 3.x 之 后 的 内 核 在 撒 层 BSP 上 进行 了 哪些 优化 。 
第 20.2 节 讲解 了 如 何 提供 操作 系统 的 运行 节拍 。 

第 20.3 节 讲解 了 中 断 控 制 器 驱动 ， 以 及 它 是 如 何 为 驱动 提供 标准 接口 的 。 

第 20.4 节 讲解 多 核 SMP 必 片 的 局 动 。 


7820.6-20.975 4) 3 VERE f 1E ZyLinuxie 1T JI Ez dli E GPIO, pinctrl. Hj ff IdmaengineJk JJ. 


学 习 本 章 有 助 于 工程 师 理解 驱动 调用 的 底层 API 的 来 源 ， 以 及 直接 进行 Linux 的 平台 移植 。 


20.1 ARM Linux 压 层 驱 动 的 组 成 和 现状 


为 了 让 Linux 在 一 个 全 新 的 ARM SoC E3sfy, mete SMR, WEN aS TA. TPE Hl 
器 、SMP 启 动 、CPU 热 插 拔 以 及 底层 的 GPIO、 时 钟 、pincttl 和 DMA 硬 件 的 封装 等 。 定 时 器 节拍 、 中 断 控 
制 荆 、SMP 司 动 和 CPU 热 插 拔 这 几 部 分 相对 来 说 没有 像 持 期 GPIO、 时 钟 、pinctrl 和 DMA 的 实现 那么 好 
乱 ， 基 本 上 有 个 固定 的 套路 。 定 时 器 节拍 为 Linux 基 于 时 间 片 的 调度 机 制 以 及 内 核 和 用 户 空 间 的 定时 器 提 
供 文 撑 ， 中 断 控 制 右 的 驱动 则 使 得 Linux 内 核 的 工程 师 可 以 直接 调用 local irq disable () 、disable irq © 
等 通用 的 中 断 API， 而 SMP 启 动 支 持 则 用 于 让 SoC 内 部 的 多 个 CPU 核 都 投入 运行 ，CPU 热 插 拔 则 运行 运行 
时 挂 载 或 拔除 CPU。 这 些 工 作 ， 在 Linux 3.0 之 后 的 内 核 中 ，Linux 社 区 对 比 逐 步 进行 了 民 好 的 层次 划分 和 


架构 设计 ， 


在 GPIO、 时 钟 、pinctrt 和 DMA 驱 动 方面 ， 在 Linux 2.6 时 代 ， 内 核 已 或 多 或 少 有 GPIO、 时 钟 等 底层 驱 
动 的 架构 ， 但 是 核心 层 的 代码 太 薄 弱 ， 各 SoC 在 这 些 基础 设施 实现 方面 存在 巨大 差异 ， 而 且 每 个 SoC 仍 然 
需要 实现 大 量 的 代码 。pincttl 和 DMA 则 最 为 混乱 ， 几 乎 各 家 公司 都 定义 了 日 己 独 特 的 实现 和 APTI。 


社区 必须 改变 这 种 局 面 ， 于 是 Linux 和 社区 在 2011 年 后 进行 了 如 下 工作 ， 这 些 工作 在 目击 的 Linux 内 核 中 
FISHES MA : 


“STEricsson 公 司 的 工程 师 Linus Walleijfe t f ery pinctrl Yk 28 MJ, — AER A er I —-Ndrivers/pinctrl H 
录 ， 文 撑 SoC 上 的 引 脚 复 用 ， 各 个 SoC 的 实现 代码 统一 放 入 该 目录 。 


TI 公司 的 工程 师 Mike Turquette 提 供 了 通过 时 钟 框 如 ， 让 有 具体 SoC 实 现 clk ops O KRAAG AE 
clk register () ~ clk register clkdev (O 注册 时 钟 源 以 及 产 与 设备 的 对 应 天 系 ， 其 体 的 时 钟 驱 动 痢 统一 迁 
移 到 drivers/clk 目 录 中 。 


建议 各 SoC 统 一 采用 dmaengine 染 构 实 现 DMA 了 驱动 ， 该 架构 提供 了 通用 的 DMA 通 道 API， 如 
dmaengine prep slave single () 、dmaengine submit () 和 等， 要求 SoC 实 现 dma device 的 成 员 函 数 ， 实 现代 
fi 5 — TX AN drivers/dma H 3€. 


:在 GPIO 方 面 ，drivers/gpio 下 的 gpiolib 已 能 与 新 的 pinctrl 完 美 共存 ， 实 现 引 脚 的 GPIO 和 其 他 功能 之 间 
的 复 用 ， 有 具体 的 SoC 只 需 实 现 通 用 的 gpio_chip 结 构 体 的 成 员 函 数 。 


经 过 以 上 工作 ， 基 本 上 就 把 心 片 压 层 基础 架构 方面 的 驱动 架构 统一 了 ， 实 现 方 法 也 统一 了 。 男 外 ， 目 
前 GPIO、 时 钟 、pinmux 守 都 能 民 好 地 进行 设备 树 的 映 喘 处 理 ， 辟 如 我 们 可 以 方便 地 在 .dts 中 定义 一 个 设备 
要 的 时 钟 、pinmux 引 脚 以 及 GPIO 。 


除了 上 述 基 础 设施 以 外 ， 在 将 Linux 移 植 入 新 的 SoC 过 程 中 ， 工 程 师 常常 强烈 依赖 于 早期 的 printk 功 


能 ， 内 核 则 提供 了 相关 的 DEBUG LL 和 EARLY PRINTK 支 持 ， 只 需要 SoC 提 供 商 实现 少量 的 回调 函数 或 


: 


KEERI EIR PEM op EE TT RJ LBS USOS] SER SEL HA SE Bld DT, WAS re EVA UH 
将 Linux 移 西 入 新 SoC 的 主要 工作 。 


20.2 ARK TASKS 


Linux 2.6 的 早期 (Linux2.6.21 之 前 ) AtKe2e T TAIT, SocA 8] CERE Linuxfe te 2) H Ces 
上 的 时 候 ， 会 从 芯片 内 部 找 一 个 定时 器 ， 并 将 该 定时 器 配置 为 赫兹 的 频率 ， 在 每 个 时 钟 节拍 到 来 时 ， 调 用 
ARM Linux 内 核 核心 层 的 tmer tick O 函数 ， 从 而 引发 系统 里 的 一 系列 行为 。 如 Linux 2.6.17 中 
arch/arm/mach-s3c2410/time.c 的 做 法 类 似 于 代码 清音 20.1 所 示 。 


代码 清单 20.1 早期 内 核 的 节 担 驱动 


Lee 

2 * IRQ handler for the timer 

a. oy 

4static irqreturn t 

99902410 Timer Interrupt (ne arg, VOLO *dev Iid; Struct pL regs 5895) 
6 { 


J write seqlock(&xtime lock); 

8 二 人 全 

9 write sequnlock(&xtime lock); 
ie return IRQ HANDLED; 
11} 
12 
ISStavcic Struct. 2rgdaction. $302410 timer TE0 - 1 
14 .name = "$3C2410 Timer Tick", 

15 yi lags = OA INTERRUPT | SA TIMER, 
16 .handler = 6302410. timet interrüpt; 
17}; 

ISSLATIG volo Init s3c2410 timer Init (void) 

| 
20 s3c2410 timer setup(); 
21 setup irq(IRO TIMER4, &s3c2410 timer irq); 
22} 


ANTT 20. VRE HEPES) TIMER 4 xe E] a RC E A P fü T, BE RRE ae EI STR H A 1% eR 


timer tick €) 。 


当前 Linux 多 采用 无 节 担 方案 ， 并 文 持 高 精度 定时 器 ， 内 核 的 配置 一 般 会 使 能 NO_HZ《〈 即 无 节拍 ， 或 
者 说 动态 节拍 ) MIHIGH RES TIMERS. 22GB UAW e796 WHIP A EW KR PUA IN BPA, MEI T n 
TH ABER EA BU ALE JS] BH TEXRP^ ^E. JOH, A RSIS TT TAL, DAS PSR Soa RK 
个 证 扣 在 何 时 友 生 。 如 来 田 一 个 时 间 轴 ， 周 期 三 拍 的 系统 证 扣 中 断 友 生 的 时 序 如 图 20.1 所 示 : 


| 


图 20.1 周期 节拍 的 系统 节拍 中 断 发 生 的 时 序 


而 NO_HZ 的 Linux 的 运行 节拍 如 图 20.2 所 示 ， 看 起 来 则 是 : PS UX REESE s HIT Jc LP] EST 18] [8 Fr n] H& n] 


Aa: 


20.2 NO HZ 的 运行 节拍 


在 当前 的 Linux 系 统 中 ，S$oC 底 层 的 定时 器 被 实现 为 一 个 clock event device 和 clocksource 形 式 的 驱动 。 
在 clock event device 结构 体 中 ， 实 现 其 set mode () 和 set next event O BKM PKA; 在 clocksource 结 构 体 
中 ， 主 要 实现 read O ARAZ. MEERA PRSES, AEH timer tick O ， 而 是 调用 
clock event device 的 event handler €) 成 员 函 数 。 一 个 典型 SoC 的 捕 层 廊 招 定 时 可 驱动 形 如 代码 清单 20.2 所 


不 。 
代码 清单 20.2 ”新 内 核 基 于 clocksource 和 clock event 的 节 担 驱动 


Letatic irgreturn Lt xxx Ciner znterrupt(inut rg, void | 


21 

3 Struct CLOCK event device "ce = dev xd; 
4 T 

9 cecceVvent Aandler (ce); 

6 

7 return IRQ HANDLED; 

8 } 

E 


10/* read 64-bit timer counter */ 
listatic Cycle C. xxx Limes read (struct clocksource =op) 


12 { 

LS u64 cycles; 

14 

1.5 /* read the 64-bit timer counter */ 

16 cycles. = readl selaxed(xxx timer base + LATCHED: HI); 
17 cycles=(cycles<<32) |readl relaxed(xxx timer base + LATCHED LO); 
18 

19 return cycles; 

20} 

21 

2AB AELG INC XXX Timer set next even l (unsigned Jong delta; 
2 struct clock event device ^ce) 

24 { 

es unsigned long now, next; 

26 now = readl relaxed(xxx timer base + LATCHED LO); 
21 next = now + delta; 

28 writel relaxed (nekt; xxx timer base + SIRFSOC TIMER MATCH 0); 
29 

230] 

34 

32zstatic void Xxx timer set mode(enum clock event mode mode, 
29 struct Clock event. device ce) 

34 { 

3 switch (mode) { 

36 case CLOCK EVT MODE PERIODIC: 

37 T 

38 case CLOCK EVT MODE ONESHOT: 

39 a 

40 case CLOCK EVT MODE SHUTDOWN: 

41 E: 

42 case CLOCK EVT MODE UNUSED: 

43 case CLOCK EVT MODE RESUME: 

44 break; 

45 } 

46} 

TISLdtLlo Struce Clock even. device xxx Clockevent = | 

48 hame = “xXx Ghockevent", 

49 «rating = 200, 

DO features = CLOCK EVI FEAT ONESHOT, 

al .Set mode = xxx timer set mode, 

DZ et NeXt event = Xxx Cimer Ser next. evenb; 

23]37 

54 

SOSLOtlIC Sctruce. Clocksource xxx clocksource = 4 

96 Dame = “xxx. clockEsource", 

57 .rating - 200, 

90 .mask = CLOCKSOURCE MASK (64), 

59 .flags = CLOCK SOURCE IS CONTINUOUS, 

60 aredd ex timer reso, 

61 Suspend = xc cIOGKSOUurce Suspend, 

62 .resume = xxx clocksource resume, 

03]; 

64 

OoSLgLic SDLPUCE IirgactCion sec Titer Lg = 4 

66 hame = "XXX TICK", 

67 .flags = IROF TIMER, 

68 irg = 0, 


09 Handler = xxx Cimer interrupb; 


70 dev 20 = gR Clockevenly 

71] 

ud 

73static void | init xxx clockevent init (void) 

74 { 

T clockevents calc mult shift(&xxx clockevent, CLOCK TICK RATE, 60); 
76 

11 XXX Qiocxevent.max delta ns = 

78 clockevent delta2ns(-2, &xxx clockevent) ; 

79 xxx clockevent,main delta ne = 

80 cCLOCROevent deltazns(2, Gxxx Clockevent) 

81 

Gz xxx ClLOCKSvenl. Cpoumask = -cpumask- or (0); 

63 clocRevents register device (xx GIOOKSVORL)s 

8 4 } 

eo 

Do/* initialize Lhe kernel jiity tiner source */ 

SiStAtLe VOLO .. INLC Xxx LINer ante (void) 

88 { 

89 

90 BUG ON(Glocksource register hz(¢xxx clocksource, CLOCK TICK RATE) ); 
91 BUG ON(setup irq(xxx timer irq.irq, &xxx timer irq)); 
92 Xxx clockevent inito; 

93) 

S4struct sys timer xxx timer = { 

95 IHE = 2 Cimon INL; 

96]; 


在 上 述 代 码 中 ， 我 们 特别 关注 如 下 的 函数 : 
l.clock event device 的 Set next eventhk n K žtxxx timer set next event () 


该 图 数 的 delta 参 数 是 Linux 内 核 传 递 给 撒 层 定时 豆 的 一 个 震 什 ， 它 的 合 义 是 下 一 次 贡 提 中断 产 生 的 便 
件 定 时 需 中 计数 套 的 人 相对 于 当前 计数 硕 的 委 什 。 我 们 在 该 函数 中 将 便 件 定时 需 设 置 为 在 “当前 计数 磊 计 
数值 +delta” 的 时 刻 产 生 下 一 次 节 担 中 断 。xxx clockevent init () 函数 中 设置 了 可 接受 的 最 小 和 最 大 delta 值 


对 应 的 纳 秒 数 ， 即 xxx_ clockevent.min delta ns 和 xxx clockevent.max delta ns. 


2.clocksourceHJread Y, ji PAI ALxxx timer read () 


VA ER 2 n] ie BUB MAT LS] 2 gi AY Zl kg AN RP 8 ZEW AE, DWARA WE Ste Sl EY 
产生 中 断 ， 便 件 的 计数 总 是 在 进行 的 《我 们 要 理解 ， 计 数 总 是 在 进行 ， 而 计数 到 荣 人 后 要 产生 中 断 则 需要 
软件 设置 ) 。 因 此 ， 访 冰 数 给 Linux 系 统 提供 了 一 个 故 层 的 准确 的 参考 时 间 。 


3. 定 时 需 的 中 断 服 务 程 序 xxx timer interrupt () 


在 访 中 断 服务 程序 中 ， 有 直接 调 用 clock event devicelJevent handler C) RRAZ, event handler © 成 
员 函 数 的 具体 工作 也 是 Linux 内 核 根 据 Linux 内 核 配置 和 运行 情况 目 行 设置 的 。 


4.clock event device 的 set mode, im pki ZI xxx timer set mode () 


FOF CSE I aS RU RK. SRD AE, HBU—AREAKHONESHOTTEGX, Beit 
Wr SAIA Linux t5; uf EL f ASE Ja BH PERS SN, RR AAA TESTE RARE ENO HZ, REJER 
Ait XJ KIA BY PLA TAS TI HE ES FF 


这 些 函 数 的 结合 使 得 ARM Linux 内 核 底层 所 需要 的 时 钟 得 以 运行 。 下 面 举 一 个 典型 的 场景 ， 假 定 定时 
器 的 晶振 时 钟 频 率 为 IMHz 〈 即 计数 器 每 加 1 等 于 1us) ， 应 用 程序 通过 nanosleep 〈) API 睡 眠 100us， 内 核 
会 据 此 换算 出 下 一 次 定时 器 中 断 的 delta 值 为 100， 并 间接 调用 xxx_timer set next event O 去 设置 硬件 让 其 
在 100us 后 产生 中 断 。100us 后 ， 中 断 产生 ，xxx timer interrupt © 被 调用 ，event handler O 会 间接 唤醒 
睡眠 的 进程 并 导致 nanosleep () 函数 返回 ， 从 而 让 用 户 进程 继续 。 


这 里 要 特别 强调 的 是 ， 对 于 多 核 处 理 喜 来 说 ， 一 般 的 做 法 是 给 每 个 核 分 配 一 个 独立 的 定时 髓 ， 各 个 核 
根据 上 日 映 的 运行 情况 动态 地 设置 日 己 时 钟 中 断 发 生 的 时 刻 。 看 一 下 我 们 所 运行 的 ARM vexpress H P Sr 
(GIC 29twd) BUA: 


# cat /proc/interrupts 


CPU CPU CPUZ CPUS 
297 1548 ile 1501 1484 GIC 29. -twd 
34: 7 9 O 9 GIC 34 timer 
201 9 9 9 9 GIG» 396: NEGCCDIOSI 
SE 162 21 2 251 GIC. GJ Mart- pol 
41: 88 105 149 dd GIC. Al  mmer-plliox (cma) 
42: 5449 5443 5450 24003 GIC 42 mmci-pll18x (pio) 
44: O 8 J O GIC 44 kmi-p1050 
45: 9 100 9 9 GIC 4D- kmr-pl050 
47: 9 O 9 O GIC 47  ethO 
FRETO: O 1 il 1 CPU wakeup interrupts 
TEIG 9 O 9 0 Timer broadcast interrupts 
TE T2 454 266 436 642 Rescheduling interrupts 
IPIO: 9 1 1 k Ue Onl: Cail wmnterrupts 
IPI4 O 9 9 QU: single rtunctrom call interrupts 
LPIS 9 O 9 OQ. CPU. stop Interrupts 
TBILG 0 O O O IRQ work interrupts 
DET 9 O 9 0 completion interrupts 
BE 9 


而 比较 低 效 率 的 方法 则 是 只 给 CPUO 提 供 定 时 右 ， 由 CPUO0 将 定时 右 中 断 通 过 IPI CInter Processor 
Interrupt， 处 理 器 间 中 断 ) 广播 到 其 他 核 。 对 于 ARM 来 讲 ，1 号 IPIIPI TIMER 就 是 来 负责 这 个 广播 的 ， 从 
arch/arnykernel/smp.c 可 以 看 出 : 


enum ipi msg type 1 
IPI WAKEUP, 
LET TIMER, 
IPI RESCHEDULE, 
IPI CALL FUNC, 
IPI CALL FUNC SINGLE, 
DET CDU IP, 


20.3 ”中断 控制 花 豫 动 


在 Linux 内 核 中 ， 各 个 设备 驱动 可 以 俐 里 地 调用 request irq ©) ~ enable irq () ~ disable irq ©) 、 
local irq disable () 、local irq enable () 等 通用 API 来 完成 中 断 申 请 、 使 能 、 禁 止 等 功能 。 在 将 Linux 移 
桓 到 新 的 SoC 时 ， 怪 卢 供应 丙 需 要 提供 该 部 分 API 的 撒 层 文 持 。 


local_irq disable () . local irq enable €) 的 实现 与 其 体 中 断 控 制 右 无 和 天， 对 于 ARM v6 以 上 的 体系 结 
构 而 言 ， 是 直接 调用 CPSID/CPSIE 指 令 进 行 ， 而 对 于 ARM v6 以 前 的 体系 结构 ， 则 是 通过 MRS、MSR 指 令 
来 读 取 和 设置 ARM 的 CPSR 寄 存 器 。 由 此 可 见 ，local irq disable () 、local irq enable O 针对 的 并 不 是 
外 部 的 中 断 控 制 器 ， 而 是 直接 让 CPU 本 身 不 响应 中 断 请 求 。 相 关 的 实现 位 于 arch/arnyinclude/asnyirqflags.h 
中 ， 如 代 但 清单 20.3 所 示 。 


代码 清单 20.3 ARM Linux local irq disable () /enable €) 底层 实现 


1#if | LINUX ARM ARCH >= 6 

2 

3eLatrio anline unsigned Long arch local Irq save(void) 
4 1 

5 unsigned long flags; 


7 asm volatile ( 
8 n mrs $0, cpsr @ arch local irq save\n" 


10 ; "ep" (flags) e r "memory"; "eej; 
dd return flagsi 


lågtratio inline youd arch local irg enable(vore) 

L51 

16 asm volatile( 

1-7 ý cpsie i G arch local irg enable" 


24 { 
25 asm volatile( 
26 ý Cpsid: 1 G arch Local irg disable" 


29 . "memory", "oco" 


CET 

34 * Save the current interrupt enable state & disable IRQs 
db. wy 

JOSLHLLC anline unsigned long arch Local T1170 Sevetvold) 

YE, 

38 unsigned long flags, temp; 


40 asm volatile( 

41 2 mrs eU; OPSI @ arch local irq save\n" 
42 n örr Sl, 60, #12e\n" 

43 " msr Oper Gp wi" 

44 : "=r" (flags), "=r" (temp) 


46 : "memory", "cc"); 
4] return flags; 


907% 

ok * Enable IROS 

Da Wy 

Sosta Lic inline void arch local irg enable(void) 


25 unsigned long temp; 

56 asm volatile( 

57 " mrs o0. Cpsr @ arch local irq enable\n" 
58 Dre oO, ol, SLZOXu" 
De msr CDSE y <0" 

60 : "=r" (temp) 

61 : 

62 2; “memory”, "oo")s 

63] 

64 

DONE 

66 * Disable IRQs 

67 */ 

O6Static anline void arch. local irg disable (void) 
DO 

70 unsigned long temp; 

ps asm volatile( 

12 " mrs 905. Cost @ arch local irq disable\n" 
T3 Orr $0, $0, #128\n" 
74 msr OPSE Cc, 0 

I9 : "zr" (temp) 

T6 ; 

77 ; "memory", "cee"? 

78} 

79 #endif 


与 local irq disable Ò 和 local irq enable O 不 同 ，disable irq Ò ~ enable irq © 针对 的 则 是 中 断 
控制 器 ， 因 此 它们 适用 的 对 象 是 某 个 中 断 。disable irq O 的 字面 意思 是 暂时 屏蔽 掉 某 中 断 《〈 其 实在 内 核 
的 实现 层面 上 做 了 延 后 屏蔽 ) ， 直 到 enable irq O 后 再 执行 ISR。 实 际 上 ， 屏 项 中 断 可 以 发 生 在 外 设 、 中 
断 控制 器 、CPU 三 个 位 置 ， 如 图 20.3 所 示 。 对 于 外 设 端 ， 是 从 源头 上 就 不 产生 中 断 信 号 给 中 断 控 制 器 ， 由 
于 它 高 度 依赖 于 外 设 于 本 身 ， 所 以 Linux 不 提供 标准 的 API 而 是 由 外 设 的 驱动 直接 读 写 自 身 的 寄存 器 。 











中 断 控制 器 CPU 
3 
外 设 ! 
hit > | > 1 
是 接 谈 写 外 设 disable irq() EY disable() 
fn enable irq() local irq enable() 
1 ub 小 一 | 人 
图 20.3 ”屏蔽 中 断 的 3 个 不 同位 置 


在 内 核 中 ， 通 过 irq chip 结 构 体 来 描述 中 靳 控制 嚣 。 该 结构 体内 部 封装 了 中 汤 mask、unmask、ack 等 成 


yz 


代码 清单 20.4 


lStrucb irg chap 1 


z const char 
3 unsigned int 
4 void 

S void 

6 void 

7 

8 void 

9 void 
10 void 
11 void 
12 void 
13 
14 int 
15 int 


函数 ， 其 定义 于 include/linux/irq.h 中 ， 如 代码 清单 20.4 所 示 。 


irq _ chip 结构 体 


*name; 

(“Lrg BLartup)fStruct irg dara “data); 
(可 shutdown) (struct irg data *data) ; 
(^uxsg enable (SLIUuDt ted data dalal; 
(LG Giseble) (struct vg daca darla); 


(^q eck) GSUTUOSL arg data "dataj; 

了 工人 Mask) (struce irg data dara); 
(“Ird mask ack) (Seruce Tr0 Qata ~data); 
(IEG unmask) (struct irg data *data); 
(Pig SOL) (SCruce 26g data *daca); 


(^urg Set arrini y) (Struck 1r¢q daca “data, OORSC Strucr 
cpumask *dest, bool force); 
(irg reri ggr) (Struce Icd dara “data; 


16 int (“IY set type)(strüuct Ird data "data; unsigned ant 
flow type); 
17 int (“Irq Ser wake)(struct Te0 data "data, unsigned ane: on)? 


各 个 心 厂 公司 会 将 心 记 内 部 的 中 断 控 制 右 实现 为 Irq_chip 驱 动 的 形式 。 受 限于 中 靳 控制 血便 件 的 能 
力 ， 这 些 成 员 函 数 并 不 一 定 需 要 全 部 实现 ， 有 时 低 只 前 要 实现 其 中 的 部 分 函数 即 可 。 辟 如 
drivers/pinctrl/sirf/pinctrl-sitf.c 驱 动 中 的 下 面 代码 部 分 : 
Stace STPSUCL irg Chip DL poc Ird Onip = 1 
.name = "sirf-gpio-irg", 
Ed ack =615Es0C gpro irg ack, 
„irg Mask = SLrEsSOC gprlo irg mask, 


dq UlMesk = GSXTIsOO gpIO 1rd unmask; 
LEGO Set Type = SLELSOC gpio rg type, 


我 们 只 实现 了 其 中 的 ack、mask、unmask 和 set typek R EZ, ack% H Tis Flt, mask. unmask Hi 
于 中 断 屏蔽 和 取消 中 断 屏蔽 、set type 则 用 于 配置 中 断 的 触发 方式 ， 如 高 电 平 、 低 电 平 、 上 升 沿 、 下 降 治 
等 。 至 于 到 enable irq O 的 时 候 ， 虽 然 没 有 实现 irq enable() 成 员 函 数 ， 但 是 内 核 会 间接 调用 
irq unmask () 成 员 函 数 ， 这 点 从 kernel/irq/chip.c 中 可 以 看 出 : 


vold irg enable (Struct. 2580 desc *desc) 
{ 
irg State Clr GOusabled (desc); 
LL (OSSC=>120 Gaca.Chip-2irgd enable) 
desc weg dSate.cnhrpe-irq Snable(scesc--17q data); 
else 
desceLnPq datechlp-^nrq unmaski(iedesc-oirg date); 
irg state Clr maskedi(desc); 


在 心 片 内 部 ， 中 断 控 制 咒 可 能 不 止 1 个 ， 多 个 中 断 控制 器 之 间 还 很 可 能 是 级 联 的 。 举 个 例子 ， 假 设 心 
片 内 部 有 一 个 中 断 控 制 器 ， 支 持 32 个 中 断 源 ， 其 中 有 4 个 来 源 于 GPIO 控 制 器 外 围 的 4 组 GPIO， 每 组 GPIO 
上 又 有 32 个 中 断 《〈 许 多 芯片 的 GPIO 控 制 器 也 同时 是 一 个 中 断 控 制 器 ) ， 其 关系 如 图 20.4 所 示 。 


中 断 控 制 器 
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图 20.4 SoC 中 断 控 制 器 的 典型 分 布 


那么 ， 一 般 来 讲 ， 在 实际 操作 中 ，gpio0 0~gpio0 31 这 些 引 脚本 身 在 第 1 级 会 使 用 中 断 号 28， 而 这 些 
引 脚 本 有 身 的 中 断 志 在 实现 与 GPIO 控 制品 对 应 的 irq_chip 驱 动 时 ， 我 们 又 会 把 它 映 射 到 Linux 系 统 的 32~63 号 
HAr. EJE, gpiol O~gpiol 31 这 些 引 脚本 映 在 第 1 级 会 使 用 中 断 号 29， 而 这 些 引 脚本 喘 的 中 断 亏 在 实现 


与 GPIO 控 制 器 对 应 的 irq_chip 驱 动 时 ， 我 们 又 会 把 它 映 射 到 Linux 系 统 的 64~95 号 中 断 ， 以 此 类 推 。 对 于 中 
叶 写 的 使 用 者 而 言 ， 无 希 看 到 这 种 2 级 映射 关系 。 如 果菜 设备 想 申 请 与 gpiol 0 这 个 引 脚 对 应 的 中 断 ， 它 只 
需要 申请 64 写 中 汤 即 可 。 这 个 天 系 图 看 起 来 如 图 20.5 所 示 。 


要 特别 注意 的 是 ， 上 述 图 20.4 和 20.5 中 所 涉及 的 中 断 号 的 数值 ， 无 论 是 base 还 是 具体 某 个 GPIO 对 应 的 
中 汤 写 是 多 少 ， 痢 不 一 定 是 如 图 20.4 和 图 20.5 所 揪 述 的 人 简单 线性 映 册 。Linux 使 用 IRQ Domain 来 描述 一 个 
中 断 控 制 融 所 管理 的 中 断 源 。 换 名 话说， 每 个 中 断 控 制 磺 都 有 目 己 的 Domain。 我 们 可 以 将 了 仆 Q Domain 看 
作 是 IRQ 控 制 器 的 软件 抽象 。 在 添加 IRQ Domain 的 时 候 ， 内 核 中 存在 的 映射 方法 有 : 


irq domain add legacy ©) ~ irq domain add linear ©) . irq domain add tree () 等 。 
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120.5 PTA R 


irq_domain_add legacy () 实际 上 是 一 种 过 时 的 方法 ， 它 一 般 是 由 IRQ 控 制 器 驱动 直接 指定 中 断 源 硬 
件 意 义 上 的 偏 移 〈 一 般 称 为 hwirg) 和 Linux 逻 辑 上 的 中 断 号 的 映射 关系 。 类 似 图 20.5 的 指定 映射 可 以 被 这 
种 方法 弄 出 来 。irq domain add linear © 则 在 中 断 源 和 irq_ desc 之 间 建 立 线性 映射 ， 内 核 针 对 这 个 IRQ 
Domain 维 护 了 一 个 hwirq 和 Linux 逻 辑 耻 Q 之 间 关 系 的 一 个 表 ， 这 个 时 候 我 们 其 实 也 完全 不 关心 逻辑 中 断 号 
J; irq domain add tree © 则 更 加 有 灵活， 所 辑 中 断 号 和 hwirq 之 间 的 映射 天 系 羡 用 一 株 radix 树 来 持 述 的 ， 
我 们 需要 通过 查找 的 方法 来 寻找 hwirq 和 Linux 逻 辑 IRQ 之 间 的 关系 ， 一 般 适 合 某 中 断 控 制 器 支持 非常 多 中 
断 源 的 情况 。 


实际 上 ， 在 当前 的 内 核 中 ， 中 断 志 更 多 的 是 一 个 进 辑 概念 ， 有 基体 数值 和 是 多 少 不 是 很 天 键 。 人 们 更 多 的 


是 关心 在 设备 树 中 设置 正确 的 interrupt parrent 和 相对 该 interrupt parent 的 仿 移 。 


LA drivers/pinctrl/sirf/pinctrl-sirf.cH'Jirq. chip 部 分 为 例 ， 在 sirfsoc gpio probe © 函数 中 ， 每 组 GPIO 的 中 
Wr Abii epiochip set chained irqchip © 级 联 到 上 一 级 中 断 控 制 左 的 中 打 。 


代码 清单 20.$ ”二 级 GPIO 中 断 级 联 到 一 级 中 断 控制 器 


lSratrlc nr reoec gpro probe(struce device node ^np) 


(1 = OF L < SLRESUC GPIO NO OP BANKS? IFF) 4 


bank = &sgpio-»sgpio bank[i]; 
Spin 00k jana Cbank=-> Lock 
Dank-operent irg = platform get 11g (pdev; 1)7 
Lr (Dank=>parent. irg < U) { 
err = Dank- parent L0]; 
goro out Danks; 


} 


gpioochip Set Chained: 1rochip{¢sqp10=>Chipwgc, 
&SIrIsOC. irq chip; 
bank-^parsenct rq, 
TO gP o handle 1rg); 


对 于 SIRFSOC GPIO NO OF BANKS 这 么 多 组 GPIO 进 行 循环 ， 上 述 代 码 中 第 15 行 的 bank->parent irq 
是 与 这 一 组 GPIO 对 应 的 “上 级 ”中 汤 写 ，sirfsoc gpio handle irq ©) 则 是 与 bank->parent irq 对 应 的 “上 级 ”中 
靳 服务 程序 。 而 sirfsoc_gpio_ handle irq O 这 个 “上 级 ”函数 最 终 还 是 要 调用 GPIO 这 一 级 别 的 中 断 服 务 程 


序 。 


在 sirfsoc gpio handle irg OO eAACHY AL Abia chained irq enter © 暗示 日 喘 进 入 链 式 IRQ 人 处 理 ， 在 
国 数 体内 判 雇 具体 的 GPIO 中 断 ， 并 通过 generic handle irq O 调用 最 终 的 外 人 设 驱 动 中 的 中 断 服 务 程 序 ， 最 
后 调用 chained irq exit ©) 暗示 目 号 退出 链 陈 IRQ 处 理 ， 如 代码 清单 20.6 所 示 。 


代码 清单 20.6 “上 级 中断 服 务 程 序 派生 到 下 级 


locatio void ESG gplo Handle Lrq(unergued ant arg, EU irg deso *desc) 


Z1 
3 


4chained irq enter(chip, desc); 


9 


6while 


(status) { 


CEL = Segdlisopro- cHBIp.rege = SIREOQC GPIO CTRL(baBES 30, Idx); 


/* 
* Here we must check whether the corresponding GPIO's interrupt 
* has been enabled, otherwise just skip it 
n 

if ((status & 0x1) && (ctrl & SIRFSOC GPIO CTL INTR EN MASK)) { 

generic handle irq(irq find mapping(gc->irqdomain, idx + 
bank-»id * SIRFSOC GPIO BANK SIZE)); 

j 


lod 
Status = status >> 1; 


22charneoc. Irog exit(conip, dese); 


Lo} 


下 面 用 一 个 实例 来 呈现 这 个 过 程 ， 假 设 GPIO0 0~31 对 应 上 级 中 断 号 28， 而 外 设 A 使 用 了 GPIOO 5 CB 
第 0 组 GPIO 的 第 5 个 ) ， 并 假定 外 设 A 的 中 断 号 为 37， 即 32+5， 中 断 服务 程序 为 deva isr O 。 那 么 ， 当 
GPIOO 5 中 断 发 生 的 时 候 ， 内 核 的 调用 顺序 是 : sirfsoc gpio handle irq () ->generic handle irq () - 
»deva isr O 。 如 果 硬 件 的 中 断 系 统 有 更 深 的 层次 ， 这 种 软件 上 的 中 断 服务 程序 级 联 实际 上 可 以 有 更 深 的 


ZI. 


在 上 述 实 例 中 ，GPIO0 0~31 的 interrupt parrent 实 际 是 上 级 中 新 控制 戎 ， 而 外 设 A 的 interrupt parrentj 
征 GPIO0， 这 些 都 会 在 设备 树 中 进行 择 现 。 


很 多 中 断 控 制 右 的 寄存 夯 定 义 呈 现 出 简单 的 规律 ， 如 有 一 个 mask 寄 存 秦 ， 其 中 每 1 位 可 拼 页 1 个 中 糊 
等 ， 在 这 种 情况 下 ， 我 们 无 须 实现 1 个 完整 的 irq _ chip 驱动 ， 而 可 以 使 用 内 核 提 供 的 通用 irq chip 驱 动 架 构 
irq chip generice， 这 样 只 需要 实现 极 少 量 的 代码 ， 如 drivers/irqchip/irq-sirfsoc.c 中 ， 用 于 注册 CSR 
SiRFprimalI 内 部 中 靳 控制 右 的 代码 〈 见 代码 清早 20.7) 。 


代码 清早 20.7 ”使 用 generic 的 irq_chip 框 架 


上 

AGITI SOC- aLlTOO OO _1Omem “base; US QIODed Nt T1709 Stark, Unsigned Tht mum) 
34 

4 SULUCE. Tro CNI: generrco TGC 

5 Strut Lio Chip ye Yeu; 

6 int ret; 

7 unsigned int clr = IRQ NOREQUEST | IRQ NOPROBE | IRQ NOAUTOEN; 

8 unsigned wane Sel = IRO LEVEL} 

9 
T.U Lek = irg slloc domain generic CDIDS(slrcsoc crgoomaczn;nqum, d. "aed sitrsoc”, 
diu handle level rgy cir, set, AROGE INIT MASK CACHE) 7 
17 
LS OC = XPqueget domern Generic Chip (Sie rsoc ar Goomain,. T2700 Share); 
14 goecreg -pase = base; 
1:5 Gt e g= ChI p Types; 
EO Sol Mask = are Mask GL DIE? 
17 Gít-cOhrpadtq unmesk = L170 oC. mask cet bac, 
18 CEe-oregs.mask. = SERPSOC. INT Rist MASKO; 
19] 


irq_chip 驱 动 的 入 口 声 明 方 法 形 如 : 


开局 本 CR 


运行 的 初始 化 函数 。 


特别 值得 一 所 的 古 ， 


儿 乎 不 需要 实现 任何 代码 ， 只 需要 在 设备 树 中 洪 加 相关 的 市 乓 。 


如 在 arch/arm/boot/dts/exynos5250.dtsi 中 即 含有 : 


gic:interrupt-controller@10481000 { 


PROCHILE -DE CLARE 
IROCHIP DECLARE 
LROCHILILP DECLARE 
TROCHI EP DECLARE 


compatible = "arm, cortex-a9-gic"; 
itinterruptecells = <o; 

interrupt-controller; 

reg = «0x10481000 0x1000»5, «0x10482000 0x2000»; 


打开 drivers/irqchip/irq-gic.c， 发 现 GIC 驱 动 的 入 口 声 明 如 下 : 


四 了 
COTTO alo Qno. “arm; COrre sal ore y GLO Ol amit. 
GE 
COTLOX al GLC. "arm, Col uex=a/=G1C", OLC Of ane); 


"~ A/A A/m 一 


sirf，Pprima2-intc 是 设备 树 中 中 断 控 制 器 的 compatible 字 段 ，sirfksoc irq init 是 匹配 这 个 compatible 字 段 后 


目前 多 数 主 流 ARM 心 请 内 部 的 一 级 中 断 控 制 硕 都 使 用 了 了 ARM 公司 的 GIC， 我 们 


IROCHIE DECLARE (msm: 9600 dO0ro, "uoeom,msm-oo00sggiCc ys GIE OT- -Inty 
IBOCHIP DECLARE (msm qgs92,.—  "qcomymene-ggicoz'. GLO- OF Ina); 


Y Y 


1X M HH drivers/irqchip/irg-gic.cix | Uk zJJuJ UA ítzarm, gic-400. arm, cortex-al5-gic. arm, cortex-a7-gic 
等 ， 但 是 初始 化 函数 都 定 统 一 的 gic_of init. 


20.4 SMP2 IASI ECcPUWWddii IK 


在 Linux 系 统 中 ， 对 于 多 核 的 ARM 世 片 而 言 ， 在 Bootrom 人 代码 中 ， 每 个 CPU 都 会 识别 自身 ID， 如 果 ID 
古 0， 则 引导 Bootloader 和 Linux 内 核 执 行 ， 如 条 ID 不 是 0， 则 Bootrom 一 般 在 上 电 时 将 目 且 置 于 WEFI 或 者 
WEFE 状 态 ， 并 等 待 CPU0 给 其 及 CPU 核 间 中 靳 或 事件 《一般 通过 SEV 指 令 ) 以 唤醒 它 。 一 个 典型 的 多 核 
Linux 局 动 过 程 如 图 20.6 所 示 。 


被 CPU0 唤 醒 的 CPUn 可 以 在 运行 过 程 中 进行 热 搬 拔 ， 璧 如 运行 如 下 命令 即 可 仓 载 CPU1， 并 且 将 CPUl 
上 的 任务 全 部 迁移 到 其 他 CPU 中 : 


# echo 0 > /sys/devices/system/cpu/cpul/online 
= ,一 /一 人 Y N = 
PE, efr a Rare n] YA CPUN: 
# echo 1 > /sys/devices/system/cpu/cpul/online 


之 后 CPU1 会 主动 参与 系统 中 各 个 CPU 之 间 要 运行 任务 的 负载 均衡 工作 。 





Bootrom 


Bootloader 


























多 个 CPU 共同 承担 系统 负载 〈 负 载 均 衡 ) 


图 20.6 一 个 典型 的 多 核 Linux 局 动 过 程 





CPU0 唤 醒 其 他 CPU 的 动作 在 内 核 中 被 封闭 为 一 个 smp_ operations 的 结构 体 ， 对 于 ARM 而 言 ， 它 定义 于 
arch/arm/include/asm/smp.hH! o ZZ fA AS EIS] Jo, 9a ER CAE dir 20.8 rz o 


代码 清单 20.8 smp operations 结 构 体 


IStruct smp operations 1 
2#ifdef CONFIG SMP 


3 ai 
* beLup the set Of possible CPUS (Via Sec epu possible) 

5 S 

6 void (*smp init cpus) (void); 

7 p 

8 ^- Initialize opu possible map, end enable coherency 

J m 
10 võid ("Smp prepare cpus) (unsigned int max cows); 
11. 
12 [> 


1.3 * Perform platform specific initialisation of the specified CPU. 


14 221 


ilge void (*Smp.secondary 1010) {unsigned Tnt Op); 

16 co 

K * Boot a secondary CPU, and assign it the specified idle task. 

18 * This also gives us the initial stack to use for this CPU. 

19 iri 

20 int (“omp boot secondary) (Unsigned Int Cou, Sirc task struct *2019)7 
2igltder CONFIG HOTPLUG CPU 

Ze int cpu kill) (unsigned int cpu); 


(* 
Zo vöid. ("cpu die) (unsigned. int cpu); 
24 ine (^cpu disable)i(unsigned Int Opuj); 
25#endif 
26#endif 
27}; 


我 们 从 arch/arm/mach-vexpress/v2m.c 中 看 到 VEXPRESS 电 路 板 用 到 的 smp_ ops ©) 为 


vexpress Smp ops: 


DT MACHINE START (VEXPRESS DT, "ARM-Versatile Express") 


.dt compat = v2m dt match, 
.Smp = smp ops(vexpress smp ops), 
.map io = Vm ec Map. 10; 


MACHINE END 


通过 arch/arm/mach-vexpressmplatsmp.c 的 实现 代码 可 以 看 出 ，smp_operations 的 成 员 函 数 
smp init cpus () , Blvexpress_smp_init_ cpus © 调用 的 ct ca9x4 init cpu map O 会 探 出 SoC 内 CPU 核 的 
个 数 ， 并 通过 set cpu possible ©) 设置 这 些 CPU 可 见 。 


而 smp _ operations 的 成 员 函 数 smp prepare cpus () ， 即 vexpress smp prepare cpus () 则 会 通过 
v2m flags set (virt to phys (versatile secondary startup) ) 设置 其 他 CPU 的 局 动 地 址 为 
versatile secondary startup， 如 代码 清早 20.9 所 示 。 


代码 清单 20.9 ”在 smp prepare cpus OO 中 设置 CPU1...n 的 局 动 地 址 


Letatie Void: .. Inst Vexpress smp prepare cpus (üngigned Int max Cpus) 
2{ 

3 

4 

2 ) 

6 * Write the address of secondary startup into the 

] * system-wide flags register. The boot monitor waits 

8 * until it receives a soft interrupt, and then the 

9 * secondary CPU branches to this address. 
10 E 
11 wem ilag se {virt tO phys (versariic Secondary Startup) ); 
127 


HExGXUUDRHJAVASCHUITEÉ5ESoCAH2SBy. AA tr At HA EBA Bootromikt Œ. X F 
VEXPRESS 来 讲 ， 设 置 方法 如 下 : 


Re 


writel(~0O; vam sysreg base + V2M SYS. FLAGSCIR); 
writelidata, v2m sysreg base + V2M SIS .PLAGSSET) +? 


B Ftv2m_sysreg_basetV2M SYS FLAGSCLR 标 记 清 除 寄 人 存 器 为 0xXFFFFFFFF， 将 CPU1...n 初 始 局 动 


执行 的 Oe PLANETEN 这 两 个 地 址 由 已 片 实 现时 内 部 的 
Bootrom 程 序 设 定 的 。 质 入 CPU1..n 的 起 始 地 址 都 通过 virt to phys O 转化 为 物理 地 址 ， 因 为 此 时 CPU1...n 
的 MMU 疝 未 开局 。 


比较 天 键 的 or pp 的 成 员 函 数 smp boot secondary() ， 对 于 本 例 而 言 为 
versatile boot secondary ©) ， 瑟 完成 CPU 的 最 终 唤 醒 工 作 ， 如 代 人 了 码 清单 20.10 所 示 。 


代码 清单 20.10 CPU0 通 过 中 晰 唤醒 其 他 CPU 


Orario vVoOIG write pen release(int- val) 

2 { 

pen release = val; 

4smp wmb(); 

osync cache w(&pen release); 

6j 

7 

Sink. versatile Door secondary (unsigned Int Cou, Strucc task struct 1019) 


J 
lOunsigned long timeout; 
11. 
| 2478 
13 * This is really belt and braces; we hold unintended secondary 
14 * CPUs in the holding pen until we're ready for them. However, 


15 * since we haven't sent them a soft interrupt, they shouldn't 
16 * be there. 

d ome 

lo9write pen reélease(cpu logrcal mapicpu)); 

19 

2047 

21 * Send the secondary CPU a soft interrupt, thereby causing 
22 * the boot monitor to read the system wide flags register, 

23 * and branch to the address found there. 


24 */ 

25arch send wakeup ipi mask(cpumask of(cpu)); 
26 

2ltimeout = jiffies + (1 * HZ); 

28while (time before(jiffies, timeout)) { 
29 smp rmb(); 

30 ll (pen release ee L 

31 break; 

32 

33 udelay (10); 

34} 

Cores 

JODerusn en release. e d -ZENOSYO € Ug 
37} 


上 述 代 码 第 18 行 调用 的 write pen release O 会 将 pen release 变 量 设置 为 要 唤醒 的 CPU 核 的 CPU 号 
cpu logical map (cpu) ， 而 后 通过 arch send wakeup ipi mask () 给 要 唤醒 的 CPU 发 IPI 中 断 ， 这 个 时 
US LLL me O Bj EN. B 
vexpress smp prepare cpus () 里 通过 v2m flags set () 设置 的 起 始 地 址 versatile secondary startup 开 始 执 
行 ， 如 果 顺 利 的 话 ， 该 CPU 会 将 原先 为 正 数 的 pen release 写 为 -1， 以 便 CPU0 从 等 待 pen release 成 为 -1 的 循 
环 〈 见 第 28~34 行 ) 中 跳出 。 


versatile secondary startup 实 现 于 archyarnmyplat-versatile/headsmp.S$ 中 ， 是 一 段 汇编 ， 如 代码 清单 20.11 上 所 


7N o 


代码 清单 20.11 被 唤醒 CPU 的 执行 入 口 


LENTRY (versatile secondary startup) 


2 mrc [Los D 20, CU; CUr 2 
3 and CO, S0, Fo 
4 adr r4, 1f 
o ldmia pa, qx. X6 
6 sub r4, r4, r5 
7 add PO. XO. x4 
Open: lo pl. TE] 
9 cmp ET. XD 
db) bne pen 
11 
12 m 
i * we've been released from the holding pen: secondary stack 
14 * should now contain the SVC stack for this core 
15 i 
16 b secondary startup 
1:3 
18 .align 
1o03 LONG 
20 LOT pen release 


2 LENDPROC (Versatile Secondary Startup) 


上 述 代 码 第 8~10 行 的 循环 是 等 竺 pen_release 区 量 成 为 CPU0 议 置 的 cpu logical map (cpu) , —/KEL 
就 成 立 了 。 第 16 行 则 调用 内 核 通 用 的 secondary startup O 函数 ， 经 过 一 系列 的 初始 化 (如 MMU 等 ) ， 最 
终 新 的 航 唤 醒 的 CPU 将 调用 smp operations 的 Smp secondary init O 成 员 函 数 ， 对 于 本 例 为 
versatile secondary init © ， 如 代 伍 清单 20.12 所 示 。 


代 但 清单 20.12 ”人 航 唤醒 的 CPU 恢复 pen release © 


lvond verta lile secondary Inii (unsigned Int cpu) 
2d 
3 ad 
* let the primary processor know we're out of the 
5 * pen, then head off into the C entry point 
6 m 
7 write pen release(-1); 
8 


9 
10 * Synchronise with the boot thread. 
11 ay 
12 span. lock(sboot Jock)? 
19 spin unlock(&boot lock); 
14} 


上 述 代 码 第 7 行 会 将 pen telease 与 为 -1， 于 是 CPU0 还 在 执行 的 代码 清单 20.10 里 
versatile boot secondary O 国 数 中 的 如 下 循环 驳 退 出 了 : 


Te Detore (ji ities, TIMEOUT) 1 
smp rmb(); 
Lr (pen release == <1) 
break; 


udelay(10); 


这 样 CPU0 就 知道 目标 CPU 已 经 被 正确 地 唤醒 ， 此 后 CPU0 和 新 唤醒 的 其 他 CPU 各 目 运 行 。 整 个 系统 在 
运行 过 程 中 会 进行 实时 进程 和 正常 进程 的 动态 负载 均衡 。 


图 20.7 总 结 性 地 描述 了 前 文 提 到 的 vexpress smp prepare cpus () 、versatile boot secondary () 、 


write pen release () ~ versatile secondary startup ©) ~ versatile secondary init () 这 些 函 数 的 执行 顺 友 。 


CPUO l CPUI 


T ~T 








| 
| 
| 
i vexpress smp prepare cpus() 


— 


WE ELRICPUM versatile secondary startup () 开始 执行 


PE 





LJ versatile boot secondary () 


将 write pen release () 写 为 新 CPU ID 


= 


发 中 断 唤醒 CPUl 


, 退出 WFIl 


versatile secondary statup |) 


p can secondary statup () 
轮 询 等 待 pen_release 为 一 1] | 


versatile secandary init () 











----4 


图 20.7 “CPU0 唤 醒 其 他 CPU 过 程 


CPU 热 插 拔 的 实现 也 是 与 忆 片 相关 的 ， 对 于 VEXPRESS 而 言 ， 实 现 了 smp _ operations 的 cpu die © 成 
Te AL, Blvexpress cpu die O 。 写 会 在 进行 CPUn 的 拔除 操作 时 将 CPUn 投 入 低 功 耗 的 WEFI 状 态 ， 相 关 代 
fA zT arch/arm/mach-vexpress/hotplug.cFH , WRI 520.13 FFR. 


代码 清单 20.13 smp operations 的 cpu die O) 成 员 函 数 案例 


lvord. . ret vexpress cpu die(umsrogned nt Cpu) 

el 

S int spurious - 0; 

4 

5 A* 

6 * we're ready for shutdown now, so do it 

7 ny 

8 cpu enter lowpower(); 

9 platform do lowpower(cpu, &spurious); 

10 

11 is 

12 * bring this CPU back into the world of cache 

LS * coherency, and then restore interrupts 

14 a i 

15 cpu leave lowpower(); 

16 

UNE if (spurious) 

io pr warn("CPUSUu: =u Spurious wakeup calls Xn", cpu, spurious)? 
19 
20statric Inline void platform do lowpower (unsigned int. cpu, int *spurilous) 
21.1 
ie [* 
23 * there 1S no power-control hardware on this platform, so all 
24 * we can do is put the core into WFI; this is safe as the calling 
295 * code will have already disabled interrupts 
26 AU 
24 for (;;) { 
28 wfi(); 
29 
20 if (pen release ==> cpu Logical meptcpu)) 1 
31 yn 
32 * OK, proper wakeup, we're done 
33 un 
34 break; 
25 j 
36 
29 pe 
38 * Getting here, means that we have come out of WFI without 
39 * having been woken up - this shouldn't happen 

40 5 

41 * Just note it happening - when we're woken, we can report 
42 * its occurrence. 

43 ay 

44 (*spurriocus)J]t; 

45 } 


46} 


CPUn 睡 虐 于 wfi(〉， 之 后 再 人 钦 在 线 的 时 候 ， 叉 会 因为 CPU0 给 它 友 出 的 IPI 而 从 wfi() 函数 返回 继续 
执行 ， 醒 来 时 CPUn 也 判断 “pen release==cpu logical map (cpu) "JE PAIL, VARA RE ZU MEK ASE AE E 
CPUO MR RE HY — KIE 8$ BES e 


20.5 DEBUG LL 和 EARLY PRINTK 的 设置 


在 Linux 局 动 的 早期 ， 探 制 台 驱动 还 没有 投入 运行 。 当 我 们 把 Linux 移 植 到 一 个 新 的 SoC 时 ， 工 程 师 一 
般 非 常 想 在 刚 开 始 束 可 以 执行 printk() 功能 以 跟 躁 调试 局 动 过 程 。 内 核 的 DEBUG LL 和 EARLY PRINTK 
选项 为 我 们 提供 了 这 样 的 支持 ， 而 在 Bootloader 引 导 内 核 执 行 的 bootargs 中 ， 则 和 震 要 使 能 earlyprintk 选 项 。 


为 了 让 DEBUG LL 和 EARLY PRINTK 可 以 运行 ， 在 Linux 内 核 中 需 实现 早期 解压 过 程 打 印 需要 的 
pute CO) 和 后 续 的 addruart、senduart 和 waituart 等 宏 。 以 CSR SiRFprimall 为 例 ， 相 关 的 代码 实现 于 
arch/arm/include/debug/sirf.S 中 ， 如 代码 清早 20.14 所 示 。 


代码 清单 20.14 DEBUG LL 端口 的 驱动 


ljlüdcroadOgruarrt, tp; £v, tmp 


2ldr\rp, -SIRFSOC UART1 PA BASE @ physical 
3ldr\rv, -SIRFSOC UART1 VA BASE Q0 virtual 
4.endm 


5 

6.mMacrosenduart, rd, rx 

7strNrd, [Nrx, #SIRFSOC_UART TXFIFO DATA] 
8.endm 


l0.macrobusyuart,td,rx 
11.endm 


13.macrowaituart, rd, rx 

141001:ldr\rd, [\rx, #SIRFSOC UART TXFIFO STATUS] 
15tst\rd, #SIRFSOC UART1 TXFIFO EMPTY 

lobegl001b 

17.endm 


这 些 代 码 没 有 复杂 的 框架 和 中 断 的 支持 ， 只 是 单纯 地 往 UART 的 TXFIFO 寄 存 器 写 要 发 送 的 数据 。 其 
中 的 senduart 完 成 了 往 UART 的 FIFO 丢 打印 字符 的 过 程 。waituart 则 相当 于 一 个 流量 握手 ， 等 待 FIFO 为 空 。 


这 些 宏 最 终 会 被 内 核 的 arch/arm/kernel/debug.S3 引 用 。 
而 对 于 本 书 与 vexpress QEMU 对 应 的 实验 平台 而 言 ， 相 应 的 驱动 则 位 于 arch/arm/include/debug/pl01x.S 
中 ， 同 样 是 实现 了 类 似 的 宏 。 


在 配置 内 核 的 时 候 ， 要 进行 正确 的 配置 。 壁 如 ， 对 于 vepress 的 实验 板子 ， 我 们 选择 的 束 是 “Kernel 
low-level debugging port (Use PLO11UARTOat 0x10009000 (V2P-CA9core tile) ) ”， 对 应 的 UART 类 型 为 


PLO1X， 如 图 20.8 所 示 。 


Kernel hacking 
Arrow keys navigate the menu. <Enter> selects submenus ---> (or empty submenus ----). 
Highlighted letters are hotkeys. Pressing <Y> includes, <N> excludes, <M> modularizes features. 
Press <Esc><Esc> to exit, <?> for Help, </> for Search. Legend: [*] built-in [ ] excluded 
<M> module < > module capable 


Sample kernel code ---- 

KGDB: kernel debugger  ---- 

Export kernel pagetable layout to userspace via debugfs 
Filter access to /dev/mem 

Enable stack unwinding support (EXPERIMENTAL) 

verbose user fault messages 

Kernel low-level debugging functions (read help! 

Kernel low-level debugging port (Use PLO11 UARTO at 0x10009000 (V2P-CA9 core 
(0x10009000) Physical base address of debug UART 
(0xf8009000) Virtual base address of debug UART 
[*] Early printk 
[ ] 9n-chip ETM and ETB 
[ ] Write the current PID to the CONTEXTIDR register 
[ ] set loadable kernel module data as NX and text as RO 


< Exit > «Help» «Save» < Load > 





图 20.8 ”配置 DEBUG LL 的 端口 
arch/arm/Kconfig.debug TR i5 H J^ BJ RO ELE EX jw. H'Jarch/arm/include/debug/xxx.S, Ef: 


config DEBUG LL INCLUDE 


string 

default "debug/8250.S" if DEBUG LL UART 8250 || DEBUG UART 8250 

default "debug/pl01x.S" if DEBUG LL UART PLO1X || DEBUG UART PLOIX 
derault “debug/sirit.,S" af DEBUG SIRFPRIMA2 UARTI1 || DEBUG SIRFMARCO UARTI 


上 述 配置 选项 对 应 的 CONFIG DEBUG LL INCLUDE 这 个 宏 会 被 内 核 的 
arch/arm/boot/compressed/debug.S. arch/arm/boot/compressed/head.S. arch/arm/kernel/debug.S fil 
arch/arm/kernel/head.S LA include CONFIG DEBUG LL INCLUDE”* 的 形式 引用 。 


20.6 GPIOJEZJJ 


在 drivers/gpio 下 实现 了 通用 的 基于 gpiolib 的 GPIO 驱 动 ， 其 中 定义 了 一 个 通用 的 用 于 描述 底层 GPIO 控 
制 器 的 gpio chip 结 构 体 ， 并 要 求 具体 的 SoC 实 现 gpio _ chip 结构 体 的 成 员 函 数 ， 最 后 通过 gpiochip add () 

注册 gpio_chip。GPIO 驱 动 可 以 存在 于 drivers/gpio 目 录 中 ， 但 是 在 GPIO 兼 有 多 种 功能 有 旦 需 要 复杂 配置 的 情 
ML 下，GPIO 的 驱动 部 分 往往 直接 移 到 drivers/pinctrl 目 录 下 并 连同 pinmux 一 起 实现 ， 而 不 存在 于 drivers/gpio 


目录 中 。 


spio_chip 结 构 体 封装 了 底层 硬件 的 GPIO enable (€) /disable O 等 操作 ， 它 的 定义 如 代码 清单 20.1$ 所 


ZN o 


代码 清单 20.1$ gpio chip 结 构 体 


leStrucec gpPlo Chip I 


2 const char *label; 

3 struct device *dev; 

4 struct module *owner; 

E 

6 Int (*reguest) Struct gplo Chip “chip; 

7 unsigned offset); 

8 void (^Irees)Tstruct Sgpio chip. “CHIP; 

9 unsigned offset); 

10 

Li LITE (^directron Input) (Struct gpioc chip “chip; 
12 unsigned offset); 

13 Int “Get! (struct Cole Chip “cap, 

14 unsigned offset); 

Lo Int (OIISCLIOM OUCDUL) (tr gple CNIP “chip, 
16 unsigned offset, int value); 
17 int ("Set debounce) (Struct grio chip *chip, 

18 unsigned offset, unsigned debounce) ; 
19 
20 VOLO (Sec) (Seruce pO chap *Chip, 
21 unsigned offset, int value); 
22 
23 int ("CO IrXg)iStruct gpio Caip “ONID; 
24 unsigned offset); 
25 
26 void (70b9 show) (struct seq file "g; 
21 struct gpio Chip *ORLID)S 
28 int base; 
29 ulo nocplo: 
30 const char *const *names; 
2d. unsigned can sleeps 
e unsigned exported:1; 
33 

34$£if defined (CONFIG OF GPIO) 

a5 J^ 

0 * Ir CONTIG OF 26 enabled, chen all GPIO concrrollers described Tn The 
3d * device tree automatically may have an OF translation 

38 RJ 

39 Struct devroe mode of node; 

40 Int ot gpro n cells; 

41 ime ("OI klare) (aLr po Chip. "go, 

42 const SLDUCcL Or phgndle args *"gbEIOSpec,. u22 *ilags) >; 
A3#endif 

44}; 


这 层 封装 具体 的 要 用 到 GPIO 的 设备 驱动 都 使 用 通用 的 GPIO API 来 操作 GPIO， 这 些 API 主 


要 用 于 GPIO 的 申请 、 释 放 和 设置 : 


ine BLO Pequest(unsi0ned: gplo, Const char *label); 
void gpio Tree (unsigned Jgplo); 


int gplo direction nc unsigned Gpi0); 
int gpio direction output(unslgned dgpio. int value); 
int gpio set debounce (unsigned gpio, unsigned debounce) ; 
int gpio get value cansleep(unsigned gpio); 
VOLO gpio Set value cansleep(unsigned gpio, ant value); 
LIB Sgpro- request one(unsrghed.gpro, unsrogned tong flags, cons. char "label; 
Int. gplo request array(const SLrUCt gplo “array, Size t Num); 
VOLO ODIO free array(const Strüct gpro “array, Size c Imm); 
int dev OPLO vequest(struct device “dev, Unsigned Jgpao, const char * label); 
Le. devm goo. request one(strucc device "dev, Unsigned. gpio, 
unsigned long flags, const char *label); 
võid devm gpio free(struct device "dev, unsigned inb gprio); 


YER: 内核 中 针对 内 存 、IRQ、 时 钟 、GPIO、pinctrl、Regulator 都 有 以 devm 开头 的 API， 使 用 这 部 分 
API 的 时 候 ， 内 核 会 有 类 似 于 Java 的 资源 目 动 回收 机 制 ， 因 此 在 代码 中 进行 出 错 处 理 时 ， 无 须 释 放 相 天 的 
资源 。 


对 于 GPIO 而 言 ， 特 别 值 得 一 提 的 是 ， 内 核 会 创建 /sys 广 点 /sys/class/gpio/gpioN/， 退 过 它 我 们 可 以 echo 
值 从 而 改变 GPIO 的 方 同 、 设 置 并 获取 GPIO 的 值 。 


在 拥有 设备 树 文 持 的 情况 下 ， 我 们 可 以 通过 设备 树 来 摘 述 某 GPIO 控 制 右 提供 的 GPIO 引 脚 补 其 体 设 备 
使 用 的 情况 。 在 GPIO 控 制 妖 对 应 的 节点 中 ， 需 定义 #gpio-cells 和 gpio-controller 属 性 ， 上 有 具体 的 设备 节点 则 退 
过 xxx-gpios 属 性 来 引用 GPIO 控 制 器 节点 及 GPIO 引 脚 。 


YUIVEXPRESS B Eix DT X. ?Farch/arm/boot/dts/vexpress-v2m.dtsi H A 4 P GPIOF ill z& 13 A: 


vam sysreg: sysreg800000 { 
compatible = "arm,vexpress-sysreg"; 
reg = «0x00000 0x1000»; 
golD-COnLtroller: 
#gpio-cells = «2»; 


VEXPRESS E KIR E HIMMC3T326 til 23-2 f H] VH EA GPIOSZ hill ee DCHJGPIO S] Hal, UU EET 


mmci(2005000 77 4 1 ci 38 xL -gpios/& TE 5] HGPIO: 


mmci(05000 { 
compatible = "arm,pl1180", "arm,primecell"; 
reg = «0x05000 Ox1l000>; 
interrupts = «9 10»; 
cd-gpros = uvam svsreg U U>; 
wp-gpios = «&v2m sysreg 1 0»; 


其 中 的 cd-gpios 用 于 SD/MMC 卡 的 探测 ， 而 wp-gpios 用 于 写 保护 ，MMC 主 机 控制 器 驱动 会 通过 如 下 方 
法 获取 这 两 个 GPIO， 评 见于 drivers/mmc/host/mmci.c: 


grali vold me dt populate generic pdata (struct device node *nBp, 
Struct mox platform Gate *~pdata) 


{ 


pdata->gpio wp 
pdata->gpio cd 


Or get named ocean "WDp-gPLOS",. U)? 
Or get named Opto (np, "Odgpios', 0); 


20.7 pinctrl Kay 


VT SoCA SERES pings ill 4s, Mpina Ha a fas, FQ) ACS 1 Br — 28. 9] A BERT 
RTE. FERRE E, LinuxPjfZBJpinctrl I zjj uJ UA BEE pings till 2$ 7334 Se RH. P ETE: 


MOEH HM A pint h ar n] 355580 B] TA] al 

-提供 引 脚 复 用 的 能 

-提供 配置 引 脚 的 能 力 ， 如 驱动 能 力 、 上 拉 下 拉 、 开 涯 (Open Drain) 等 。 
1.pinctrl 和 引 脚 


在 特定 SoC 的 pinct 张 动 中 ， 我 们 需要 定义 引 脚 。 假 改 有 一 个 PGA 封 闻 的 公斤 的 引 脚 排 布 如 多 20.9 所 


小。 


图 20.9 ”一 个 PGA 封 净 的 他 放 的 引 脚 排 布 


在 pinctrl 驱 动 初 始 化 的 时 候 ， 需 要 问 pinctrl 子 系统 注册 一 个 pinctrl desctHia fj. ATH AT AY pins Ji vi P 
包 舍 所 有 引 脚 的 列表 。 可 以 通过 代码 清单 20.16 的 方法 来 注册 这 个 pin 控 制 艺 并 命名 它 的 所 有 引 脚 。 


代码 清单 20.16 ”pinctr1 引 脚 描 述 


l#include «linux/pinctrl/pinctrl.h» 


2 

SCOnSE Struct prnctrl pin. desc Poo panel] s 
4 PLNGETRD -PIN(O; "“AG™), 

S PINGT RE PIN (1; UST 

6 PINCTRE PLIN(Z "C5"), 

7 us 

8 PINCTRI: PIN(6l, "REL" 

9 PINCTRE PLNIO2, "GL" 

10 PINCTRE PLNQGOS, "Hi", 

11) 

ee 

Losta tIio Struce pincer. desc foo Cesc = 1 

14 .name = "foo", 

15 pins = 100 pins, 

16 -npins = ARRAY SIZE(foo pins), 

1:7 .maxpin = 63, 

1.9 .owner = THIS MODULE, 

19] 
20 
21int init foo probe (void) 
224 
23 Struct PLINCLEL dev “perl; 
24 
Zo POLL e princbrli reqisrer (soo desc; SPARENT-, NULL); 
26 if (15 BRR(DOLL)) 
21 pr err("could not register foo pin driver An"); 


pinctrli® 


在 pinctrl 子 系统 中 ， 支 持 将 一 组 引 脚 绑 定 为 同一 功能 。 假 设 10，8，16，24} 这 一 
能 ， 而 124，25} 这 一 
组 实现 pinctrl ops 3] EV, 93 ERI 
真 充 到 前 文 pinctrl desc 的 实例 foo desc 中， 如 代码 清单 20.17 所 示 。 


pinctrl ops} 


2.5| 脚 组 (Pin Group? 


需要 体现 这 个 分 组 关系 ， 并 且 为 这 
数 get groups count () ~ get group name () 和 get group pins C ， 


组 引 脚 承担 IC 接口 功能 。 在 驱动 的 代码 中 ， 


将 


代码 清单 20.17 pinctrl 驱 动 对 引 脚 分 组 


1#inelude «ILinüux/plnctrl/pincbEL,h- 


2 

OStbuct 

4 

D 

6 

7); 

8 

9static 
lO0sStatic 
11 
l28Static 
Lo 


Zo 


39 


46static 
47 

48 

49 

20]; 

5I 

52 
53static 


get groups count (O PKIN PKI 
get group name () 则 提供 引 脚 组 的 名 字 ，get group pins ©) 提供 引 脚 组 的 引 脚 表 。 
重用 API 使 能 


foo group { 

const char *name; 

const unsigned int *pins; 
CONS. Unssogned mum pins; 


GONnst Unsigned TINE 6610 pins | = 4 Up pp be, 24 1 
Const Unsigned zt 1200. pans[] = 4 24, Z9. J7 
Const struct foo group foo groups] = 4 
{ 
" spi 0 grp" , 


.name = 
Jprns = Spi prins; 
.num pins = ARRAY SIZE(spi0 pins), 


name = "1200. grip" 
{LNs = 1260: pins, 
num pins = ARRAY SIZs501200 pins), 


int $00 get groups COUnE{SLEUCE prnoctrl dev *pcrldey) 

return ARRAY LO LO groups); 

const. Char *100 get Group nametstruct pincrrl dev “pclldey, 
unsigned selector) 


return foo groups[selector].name; 


Lime 100 get Group prius(struct pinctrl dev ^potldev, Unsigned Selector, 
Unsigned ** const pins; 
unsrgned ^ const num pinus) 


spins = (unsigned *) foo: groupsS[selector].prone; 


^num pans = foo groupslselectorl.num pins; 
return 0; 


SLCBOL pincer! Cos $00 pOtrtl Ops = 1 
get groupo Count = i00 get groups county 
.get group name = foo get group name, 
get group Pins = Too get group pins, 


SLEIUDL Pinctrl dese 100 dese = 4 


pOLIODS = 4100 POLPIL OPO; 


数 用 于 告知 pinctrl 子 系统 该 SoC 中 合法 的 被 选 引 脚 组 有 多 少 个 ， 而 
在 设备 驱动 调用 


一 组 引 脚 的 对 应 功能 时 ，pinctrl 子 系统 的 核心 层 会 调用 上 述 回 调 函 数 。 


组 引 脚 承担 SPI 的 功 


分 


3. 引 脚 配置 


设备 驱动 有 时 候 需 要 配 症 引 脚 ， 艾 如 可 能 把 引 脚 设 症 为 高 阻 或 者 三 在 《达到 类 似 断 连 引 脚 的 效 末 ) ， 
或 通过 未 阻 全 将 引 脚 上 拉 / 下 拉 以 确保 默认 状态 下 引 脚 的 电 平 状态。 在 张 动 中 可 以 目 定义 相应 板 级 引 脚 配 
BELAPIBJZH S, EAD Beh DJ] n] eI BA aR SI AL EY: 


#include <linux/pinctrl/consumer.h> 


ret = Pill coL19g seti" rooedgev", "EOO GPIO FIN", PLATFORM X PULL UP); 


其 中 的 PLATFORM X PULL UP 由 特定 的 pinctrl 驱 动 定义 。 在 特定 的 pinctrl 驱 动 中 ， 需 要 实现 完成 这 些 配 


置 所 需要 的 回调 函数 (pinctrl desc 的 confopgs 成 员 函 数 ) ， 如 代码 清早 20.18 所 示 。 


代码 清单 20.18 引 脚 的 配置 


Ifrsclude «linux/pinctrl/ornoctrel.h- 
2#include <linux/pinctrl/pinconf.h> 


S#include "platform x pindefs.h" 
4 
ostatic Int LOO: pil Contig getistruct pancirl dev "poLldev, 
6 unsigned offset, 
] unsigned long *config) 
8 { 
9 Struct My CODDLtYDe cont; 
10 
uw . Find setting for pin @ offset ... 
12 
E *config = (unsigned long) conf; 
14} 
1.5 
LOSCALIO Int LOO pig OODILIg Sevietruce prnotrl dev *DOLlOSV, 
17 unsigned offset, 
18 unsigned long config) 
1:91 
20 Se My COnLLYpS “Cont = (Suruct My CODLCYDSe ~) OGODELS; 
2l 
2 switch (conf) { 
2o case PLATFORM X PULL UP: 
24 eT 
2 ) 
26 ) 
21) 
28 
2OSLALIO LNL .Too0 Pin Coniig -Group get (REUC pinctrl dey *DOULdeV, 
30 unsigned selector, 
e unsigned long *config) 
324 
3 3 
34} 
2 
9osLtatrc int 100 pain Contig group sec (Scruce pincrrl dev "DCULOSV; 
2 unsigned selector, 
38 unsigned long config) 
3 
40 
41] 
42 
dostaio -struci prlnconr Ops foo poonr ops = 1 
44 Pin contig get = too pid Config get; 
45 pin CONTIGO Set = TOO pin. Contig Seb; 
46 lm COntig group get = I00 Pin CoOntig.group get, 
47 spin. CONnft9 group. eet = LOO pin Contig Group Ser, 
48 } 
49 
50/* Pin config operations are handled by some pin controller */ 
OLStatic SLLUCl ipincirlL desc foc. desc = 1 
D T€ 
93 .confops = &foo pcont ops, 


其 中 的 pin config group get () ~ pin config group set O 针对 的 是 可 同时 配置 一 个 引 脚 组 的 状态 情况 ， 
而 pin config get ©) ~ pin config set ) 针对 的 则 是 单个 引 脚 的 配置 。 


4. 与 GPIO 子 系统 的 交互 


pinctrl 驱 动 所 履 盖 的 引 脚 可 同时 作为 GPIO 用 ， 内 核 的 GPIO 子 系统 和 pinctrl 子 系统 本 来 是 并 行 工 作 的 ， 
但 是 有 时 候 需 要 交叉 映射 ， 在 这 种 情况 下 ， 需 要 在 pinctrl 驱 动 中 告知 pinctrl 子 系统 核心 屋 GPIO 与 底层 
pinctrl 驱 动 所 管理 的 引 脚 之 间 的 映射 关系 。 假 设 pinctrl 驱 动 中 定义 的 引 脚 32~47 与 gpio_chip 实 例 chip a 的 
GPIO 对 应 ， 引 脚 64~71 与 gpio_chip 实 例 chip b 的 GPIO 对 应 ， 即 映射 关系 为 : 


Chip as 
- GPIO range : [32 .. 47] 
= pin ranges 3 [32 ss 47] 
Chip D 
- GPIO range : [48 .. 55] 
- pin range : [64 .. 71] 


Wi CE XE pinctrl IKa Ep n L8 EA P CASES GPIOW A, aR 20.19BT7R 


代码 清单 20.19 ”GPIO 与 pinctr1 引 脚 的 映射 


lStrucb gpro Chip Chip a; 
28Lruct gpio Chip Chip D? 


dotatie Struct pil1uctrtl gpio range gpio range.a = 4 


E .name - "chip a", 

6 e 0; 

7 .base = 32, 

8 ‘pit. base = 22; 

9 npins = 16, 
10 gc = @Chip .a; 
11} 
12 
ee 有 | 
14 .name = "chip b", 

l5 .id = 0 

16 .base = 48 

aly, .pin base = 64, 

18 .npins = 8, 

19 go = @Chip- D; 
20} 
2 
224 
z Struct pancurl dev “perl; 
24 m 
Zo Pinctrl add gpro range (pctl, &gplo range a); 
26 Pinctrl add gplo range (pctl, &gpio range D)? 
27} 


在 基于 内 核 gpiolib 的 GPIO 驱 动 中 ， 硅 设备 驱动 需 进行 GPIO 申 请 gpio_request〈() 和 释放 
gpio free () ，GPIO 了 驱动 则 会 调用 pinctrl 子 系统 中 的 pinctrl request gpio (2 和 pinctrl free gpio © 通用 
API，pinctrl 子 系统 会 查找 申请 的 GPIO 和 引 脚 的 映射 关系 ， 并 确认 引 肢 是否 被 其 他 复 用 功能 所 占用 。 与 
pinctrl 子 系统 通用 层 pinctrl request gpio () 和 pinctrl free gpio © API 对 应 ， 在 底层 的 具体 pinctrl 驱 动 中 ， 


需要 实现 pinmux ops 结 构 体 的 gpio request enable () 和 gpio disable free ©) X PK AL. 


除了 gpio request enable () 和 gpio disable free O 成 员 函 数 外 ，pinmux ops 结 构 体 主要 还 用 来 封 痛 


pinmux 功 能 使 能 / 荣 止 的 回调 函数 ， 下 面 可 以 看 到 它 的 更 多 细 市 。 
5.5| WRH (pinmux) 


在 pinctrl 驱 动 中 可 人 处理 引 脚 复 用 ， 它 定义 了 功能 (FUNCTIONS)〉 , Kaa EA BED Be A f Be BET 
禁止 。 各 个 功能 联合 起 来 组 成 一 个 一 维 数 组 ， 辟 如 {spi0，i2c0，mmc0} 束 摘 述 了 3 个 不 同 的 功能 。 


一 个 特定 的 功能 总 是 要 求 由 一 些 引 脚 组 来 完成 ， 引 脚 组 的 数量 可 以 为 1 个 或 者 多 个 。 假 设 对 前 文 所 描 
述 的 PGA 封 装 的 SoC 而 言 ， 引 脚 分 组 如 图 20.10 所 示 。 


假设 fC 功能 由 {A5，B5} 引 脚 组 成 ， 而 在 定义 引 脚 描述 的 pinctrl pin desc 结 构 体 实例 foo pins 的 时 候 ， 
将 它们 的 序号 定义 为 了 {24，25}; 而 SPI 功 能 则 可 以 由 {A8，A7，A6，A5} 和 {G4，G3，G2，G1}， 即 
{0，8，16，24}: 和 {38，46，54，62} 两 个 引 脚 组 完成 ‘注意 在 整个 系统 中 ， 引 脚 组 的 名 字 不 会 午时 ) 。 


据 此 ， 由 功能 和 引 肢 组 的 组 合 束 可 以 决定 一 组 引 脚 在 系统 里 的 作用 ， 因 此 在 设置 对 组 引 脚 的 作用 时 ， 
pinctrl 的 核心 层 会 将 功能 的 序号 以 及 引 脚 组 的 序号 传 圳 给 后 层 pinctrl 驱 动 中 相关 的 回调 函数 。 


a pILÉIBZÉE 


全 








| 





420.10 ”针对 PGA 封 装 的 SoC 的 引 脚 分 组 


在 整个 系统 中 ， 豫 动 或 板 级 代码 调用 pinmux 相 关 的 API 获 取 引 脚 后 ， 会 形成 一 个 pinctrl、 使 用 引 脚 的 
设备 、 功 能 、 引 脚 组 的 映射 关系 ， 假 设 在 某 电 路 板 上 ， 将 让 spi0 设 备 使 用 pinctrl0 的 fspi0 功 能 以 及 gspi0 引 脚 
组 ， 让 i2c0 设 备 使 用 pinctrl0 的 fi2c0 功 能 和 gi2c0 引 脚 组 ， 我 们 将 得 到 如 下 的 映射 关系 : 


{ 
i'map-spri0", Spi); pinctrld, fsprliU, gspi0},; 
| 
j 


pinctrl 于 系统 的 核心 会 保证 每 个 引 脚 的 排他 性 ， 因 此 一 个 引 脚 如 有 果 已 经 人 被 菜 设 备用 挥 了 ， 而 其 他 的 设 
备 又 申请 该 引 脚 以 行使 其 他 的 功能 或 GPIO， 则 pinctrl 核 心 层 会 让 该 次 申请 失败 。 


在 特定 pinctrl 张 动 中 pinmux 相 天 的 代码 主要 处 理 如 何 使 能 / 荣 止 某 一 {功能 ， 引 脚 组 ;的 组 合 ， 辟 如， 当 
spi0 设 备 申请 pinctrl0 的 fspi0 功 能 和 gspi0 引 脚 组 以 便 将 gspi0 引 脚 组 配置 为 SPI 接 口 时 ， 相 天 的 回调 孙 数 被 组 


织 进 一 个 pinmux ops 结 构 体 中 ， 而 访 结 构 体 的 实例 最 终 成 为 机 文 pinctrl desc 的 pmxops 成 员 ， 如 代码 清单 


20.20 所 示 。 


代码 清单 20.20 pinmux 的 实现 


linc le wl inurl prmctrl she 
2qqdmebude «irmus/pirnerl/prcnomux.nm 


9 
AiSLIUCD DOO Group: d 
9 const char *name; 
6 const unsigned int *pins; 
q CONSE. unsigned mus pins; 
9]; 
9 
TOstatie CONnSt uncconedaaspro Vpn tI = gu) ey. Gy. 22-34 
Korati Comet Uno toned. SPIO 1 Omens hi) e x 595 2095-9492 T 
I2ZStstro cOnscb.uneronedq L200 “pins |)! = 吉之 4 Zoe 
ISS lav Lle Conse. Unsigned- mme. pane |i e 360p oL FF 
IZSstatrc Conse. unsigned mmeos pane i] = 1267 D9 17 
[OSDQLIC Conse -INSToned. mmo Spaniel S14 oy ole G24. OS. Dy 
16 
Listal re Const Struct £00 group Too- Groupsl] = A 
18 { 
19 dame = "spn “0 gro"; 
20 由 
24. JUN. EIS = ARRAY SIDAESGSpQRU.O0 pane); 
2 Ey 
23 
24 ene =: "spat dl gre", 
22 ES = Spi0i_1 plns, 
2.0 um prins “> ARBAY.SIZE(SprOÜ lI prine), 
zd by 
28 
29 wane: ec MeO grpt", 
30 PENS = L260 PINOy 
3l SUM. PINS > -ARRAY Sib (ae 2e)) pans) y 
224 by 
33 
34 aere = Ummeu d grep", 
So pans = mme- pins; 
36 Jum pans = ARRAY SLZR(mmc0 1l. prmes); 
2 by 
SO { 
39 nane = “mmcO: 2 orp; 
40 pins: e MUCO 2 Oris, 
41 Dum Pins = ARRAY SOIZE(QmmcO 2 pins), 
42 ky 
43 
44 lame = ^mmog. 9 grp' 
45 pins 全 IC 5 pins, 
46 inum pans = ARRAY SIZE (MMU Spins), 
2 by 
48}; 
49 
30 
Sdo Gabe, IUe OO. get groups Count (SUrucEe pincurl dev *peulidey) 
S24 
S return ARRAY -SIZE (100 groups); 
54} 
DO 


DOs tale Const Ghar ToO Cel Group naues rucct. plpossl- dev toc lldev, 


2 unsigned selector) 
991 

2.9 return. Too groups[selector].neme. 

60] 

61 


OZS0al ic Int- LOO get Group- przhneistrüct pincer, dev *potldev, Unsigned selector, 


63 unsigned ** const pins, 

64 Unsigned “CONS. nüm ans) 
65 { 

66 *DLIS = qQunosguedg Uy OG tL oOupSs | Selecuor)|~pins; 
67 snum- Ping =- roo Oroupslselector]|.num pins; 

68 return 0; 

69 } 

70 


TI Sanc serv Paneer Ops OO: (PCr “Ops = 4 


12 get -GPOUDS: Count = Loo JSt. Groups count; 
T3 eget group name -= Too get group name, 

74 et GgLrOUP pins = £90 get Group plns, 
meri 


76 


Eb ELON. Pm TUNG 4 


78 const char *name; 
T9 CONS Char v GOONSC. Doe 
80 const unsigned. num groups; 
91]; 
82 
DSSDOLIC Comse Char 4.009€ SPIO- ‘Groupe ||, =) "Spip 0 gro’, "Spoó bL GET 1) 
CaS valle CONSE Char * cODSt L260 groups] =- "5200-grp'" Jy 
ooo tate Conse Char. ^ ‘cons: mmc: Groups |) = -"mmeo L Grp", '"mmco-2 GIP; 
86 "Eo S grp'* 3 
87 
OOSLaLtlC GOUNSt SLrucL foo pmx fune foo LfunctronsLl =f 
99 { 
90 .name = "spi0", 
2d 4groupse = SPIO groups; 
2 Ium groups — ARRAY SIAZE(SpLO Groups), 
93 F 
94 
95 shame = "a 260"™, 
96 QQPOUDS-— 2260. groups; 
97 HUM Groups: = ARRAY OIARUDZCU wrOUpe), 
28 by 
99 
100 .name = "mmcO0", 
10.1 groups = mme groups, 
LOZ .num groups = ARRAY SIZE(mmcO groups), 
LOS Er 
104}; 
105 
"ole doo-dget funobsronse ccoumntisotruect ODIDCUEL dev “pculdey) 
10-71 
108 teturn ARRAY SIZE (POO: rLunctronse); 
109 
PLO 
Ileonet car toOo Oot Luame (Struet Pineer!l IeY TCELOGY,. TnSroneo Serector, 
1 23 
113 return TOO Tuncuions |Sselecvor |. name; 
114} 
TES 
lITOSLQGUIC Lb TOO get Groups SEEUuct panerrl dey “petloev, unsigned: selectoms, 
LET GONSL char = Const. 705053 
RS UNS toned = DOmsc NUM groups 
11:93 
E20 "Oroups = LOC: runctronselseleocuor]sgrotups; 
T21 ^nul groups = LOO tunctrons[selector] snum groups; 
T22 return 0; 
1295] 
124 
IZ DEN, X09 renabl e(o Cruci gpciurl-dev-"pothdev, Unsigned Setector, 
IFAS unsigned group) 
12 7 
128 u8 regbit = (1 << selector + group); 
129 
130 writeb((readb(MUX)|regbit), MUX) 
131 return 0; 
Low} 
1:39 
1S4vord foo drsabble(struct pincer) dev *potldev; unsigned selecvor,; 
b35 unsigned group) 
13604 
Lo u8 regbit = (1 << selector + group); 
1:3: 
139 writeb((readb(MUX) & ~(regbit)), MUX) 
140 return 0; 
141} 
142 
l43struct panmux ops foo pmxops = { 
144 set. Tungt rons Count = S00-OeL Tnetrons COUNT 
145 jel. TUnCELON name = roo get fname, 
146 get FUNCTION groups 00 0eb “Groups, 
147 enable. TOG enable, 
148 disable. = foo disable, 
149}; 
150 
151/* Pinmux operations are handled by some pin controller */ 
lo2SLOaltric OCUS PINGU I dese Too (desc (Y 
152 bus 
154 DOLLODS =; 6100: petri -ops; 
1 .pmxops = &foo pmxops, 
150505 


HA Wpinctrl, TEAS E. LIBE. a ARRAK, n] DA CEA OC EP AE X pinctrl. mapti 
构 体 的 实例 来 展开 ， 如 : 


Statre SLrvet BLnctrl Map... nmecdoua Ma pprno = x 
PIN: MAP. MUX -GROUP("1OO=12650", SINCGIBSL TALE DERAULT >) -"Sancerl=foo, NULL; ''35200")75 
); 


义 由 于 1 个 功能 可 由 两 个 不 同 的 引 脚 组 实现 ， 所 以 对 于 同 1 个 功能 可 能 形成 有 两 个 可 选 引 肢 组 的 


plnctrl map: 


站 
PIN MABE: MUX CROUP("EOOSSDLoU "SDLU=DOS= 7 yp "PLNOUrELeSEOO ry “SDLO D0, ED yy "SOLO y 
是 


其 中 调用 的 PIN MAP MUX GROUP 是 一 个 快捷 安 ， 用 于 赋值 pinctrl map 的 各 个 成 员 : 


rderzne PIN MAP MUX GROUP (dev, stave; photrl, grp; func) X 
{ X 

.dev name = dev, A 

QD eme = Stace, N 

.type - PIN MAP TYPE MUX GROUP, \ 

“Cer dev name = PICE ly \ 

data <mux = d X 

.group - grp, N 

-Iunctron = tune, \ 

by \ 


当然 ， 这 种 映射 关系 最 好 是 在 设备 树 中 通过 节点 的 属性 进行 ， 有 具体 的 布点 属性 的 定义 方法 依赖 于 县 体 
HJpinctrlJXz/],  fx2*fEpinctrl JXzJ] PiK 3x pinctrl. ops 结 构 体 的 .dt node to map ©) EX ia eR Ze HE JB PEE SE SE 
映射 表 。 


在 运行 时 ， 我 们 可 以 通过 闫 似 的 API 去 碍 找 并 设置 位 置 A 的 引 脚 组 以 行驶 SPI 接 口 的 功能 : 


ee 
Boc pincer). sOOkup Sree "ueplosposcm "334 
rep = pincer Selecu SUvastetby 9) 


或 者 可 以 更 加 简单 地 使 用 : 


人 


石 想 在 运行 时 切换 位 置 A 和 B 的 引 肢 组 以 行使 SPI 的 接口 功能 ， 代 人 码 结 构 类 似 清单 20.21 所 示 。 


代码 清单 20.21 pinctrl lookup state ©) 和 pinctrl select stat ©) 


LO DT Oe) 

Zu 

2 gt epu Sy 

4 B= Qevm PIinctrl Get (edevi ce); 

9 LI (TS ERRIPI) 

6 TE 

7 

8 Si 
9 EE (Glo: ERR 
EO 
11 
12 S2 = pauBnoPElLl JooRup Statelboo--cp.  ISplOOposcb*); 


13 if (IS ERR(s2)) 


ITPLOO Swrech() 

18 { 

19 L= Enable on POS Peon: A *J 

20 和 全 直人 
21 if (ret « 0) 


26 J Enable On posjtion, B. */ 
21 rebos peuctrl Select oitsbets217 
29 if (ret < 0) 


对 于 "default" 状 态 下 的 引 肢 配置， 驱动 一 般 不 需要 完成 devm pinctrl get select (dev, "default") HY Val 
用 。 壁 如 对 于 arch/arm/boot/dts/prima2-evb.dts 中 的 如 下 引 脚 组 : 


peri-iobg { 
uart8b0060000 { 
pinctri-names = "default"; 
purncebtrre0 = —cuart | plns az; 
); 
spi@bO00d0000 { 
pinctrl-names = "default"; 
pineurl-0 = SSSDS0 pins d 
bi 
spi@b0170000 4 
pinctrl-names = "default"; 
pinourbled S < COPI pins 3 


由 于 pinctrl-names 都 是 "default" 的 ， 所 以 pinctrl 核 实际 会 目 动 做 类 似 


deym pinctrl get select (dev, "default") 的 操作 。 


20.8 ”时 钟 驱动 


在 一 个 SoC 中 ， 铝 振 、PLL、 张 动 和 门 等 会 形成 一 个 时 钟 树 形 结构 ， 在 Linux 2.6 中 ， 也 存 有 
clk get rate C) ~ clk set rate () ~ clk get parent () ~ clk set parent O 等 通用 API， 但 是 这 些 API 由 每 
个 SoC 音 独 实现 ， 而 且 各 个 SoC 俩 应 商 在 实现 方面 的 兰 开 很 大 ， 于 是 凡 核 增加 了 一 个 新 的 通用 时 钟 框 架 以 
解决 这 个 人 雄 厂 化 问题 。 之 所 以 称 为 通用 时 钟 ， 是 因为 这 个 通用 主要 体现 在 : 


10 统一 的 clk 结 构 体 ， 统 一 的 定义 于 clk.h 中 的 clk API， 这 些 API 会 调用 统一 的 clk ops 中 的 回调 函数 ; 
这 个 统一 的 ck 结构 体 的 定义 如 代码 清 蛙 20.22 所 示 。 


代码 清单 20.22 clk 结构 体 


lovcrucL clk 1 


2 conet dhar 

3 const SLIUCL Clk ops 
4 Struct. cik hw 

9 char 

6 Struct elk 

7 Struct CLk 

8 struct hlrirst head 

9 了 node 
1.9 
11} 


*name; 

“ODS; 

*hw; 

"*parent names; 
"S"DOEGILS. 
*parent; 
children; 

child node; 


其 中 第 3 行 的 clk ops 定 义 是 关于 时 钟 使 能 、 禁 止 、 计 算 频 率 等 的 操作 集 ， 定 义 如 代码 清单 20.23 所 示 。 


*preparej) (Struct cik hw *hw), 
*ünpreparg)({(Strücit Oik hw «DW 
Seneole). (Struce Clk hw “hw); 
^disabbie)(sStrHoL Clk bw *hw) 7 
is enabled) (struct clk hw *hw); 
regalo Tate) (Struct CLK uw “hw, 
unsigned long parent Trace); 
round rate) (struct clk hw *hw, unsigned long, 
unsigned long *); 


大 
大 


*set parent) (struct clk hw *hw, us index); 
*get parent) (struct clk hw *hw); 

"set Dace) (oL ruc Clk mw *hw, unsigned Long); 
“Ini (Struct Clk hw hw)? 


代码 清单 20.23 clk ops 结 构 体 
LStSUucL CLE Ops 4 

> int ( 
b void ( 
4 int ( 
5 varid ( 
6 Ine ( 
7 unsigned long ( 
8 

9 long ( 
LO 
11 int ( 
12 u8 ( 
13 ime ( 
14 void ( 
13 


2) 对 具体 的 SoC 如 何 去 实现 针对 上 自己 SoC 的 ck 驱动 ， 如 何 提供 便 件 特定 的 回调 函数 的 方法 也 进行 了 


统一 。 


在 代 人 码 清 蛙 20.22 这 个 退 用 的 ck 结构 体 中 ， 第 4 行 的 clk_hw 古 联系 clk_ops 中 国 调 函数 和 其 体 便 件 细 届 的 
纽 市 ，clk_hw 中 只 包 人 通用 时 钟 结构 体 的 指针 以 及 具体 硬件 的 init 数 据 ， 如 代码 清单 20.24 所 示 。 


代码 清单 20.24 


lStruout Clk hw d 


clk hw 结 构 体 


2 struct clk *cLk; 
Const Struct elk amit Geta MEDIE 


其 中 的 clk_init_data 包 仿 了 具体 时 钟 的 名 称 、 可 能 的 父 级 时 钟 的 名 称 列表 parent_names、 可 能 的 父 级 时 钟 数 
num parents 等 ， 实 际 上 这 些 名 称 的 匹配 对 建立 时 钟 间 的 父子 关系 功 不 可 没 ， 如 代码 清单 20.25 所 示 。 


代码 清单 20.2$ clk init data 结 构 体 


上 LEUCL clk init Gata 4 


2 const char *name; 

5 Const Struct CLK Ops “Oe: 

4 CONSE char **parent names; 
2 u8 num parents; 

6 unsigned long flags; 

7); 


Acl oto FE BI A AS Fr ell BG] P] D FEL 73: 
clk enable (clk) ; "*clk-»ops-»enable (clk->hw) ; 


通用 的 clk API CZHclk enable) 在 调用 撒 层 clk 绪 构 体 的 clk_ops 成 员 函 数 《〈 如 clk->ops->enable) IY, 4 
将 clk->hw 传 递 过 去 。 


一 般 和 在 具体 的 张 动 中 会 定义 针对 特定 ck《“ 如 foo) 的 结构 体 ， 访 结构 体 中 包 仿 clk_hw 成 员 以 及 便 件 私 
HUS: 


struct CLE Too 4 
struct clk hw hw; 
. hardware specific data goes here ... 


FÆ Xto clk foo O 宏 ， 以 便 退 过 clk hw3*HXclk foo: 


#define to clk foo( hw) container of ( hw, struct clk foo, hw) 


在 针对 clk foo 的 clk ops 的 回调 函数 中 ， 我 们 便 可 以 通过 clk hw 和 to clk foo 了 最 终 获 得 便 件 私有 数据 ， 
并 访问 硬件 谈 写 寄存 器 以 改变 时 钟 的 状态 : 


Struck CLK Ops clk LOO OPE 1 
onabprie = &clk foo enable; 
.disable = &olk foo disable 
}; 
int. Clk foo enable(Struce CLE hw *nw) 
{ 
SLCEUCL CLK: 100 91007 
foo = to clk foo(hw); 
/* 访问 硬件 读 写 寄存 器 以 改变 时 钟 的 状态 * / 


return 0; 


在 具体 的 ck 驱动 中 ， 需 要 退 过 clk register O 以 及 它 的 变 体 注册 硬件 上 所 有 的 clk， 通 过 


Y 


clk register clkdev () 注册 clk 的 一 个 lookup 《这 样 可 以 通过 con id 或 者 dev_ id 字符 串 寻 找到 这 个 clk) ， 这 
两 个 函数 的 原型 为 : 


Struct Clk “CLE regrsterisLtrucLt device “dev, SLrucE Clk hw ARW)? 
lnc Clk regio ler OCLKdevistrucL Clk *Clk, Conse Char con 1G, 
Const Char Tomy Tmt, xax) 


另外 ， 针 对 不 同 的 clk 类 型 “如 固定 频率 的 clk、clk 门 、clk 驱 动 等 ) ，clk 子 系统 又 提供 了 几 个 快捷 函数 
以 完成 clk register ) 的 过 程 : 


Struct clk reik veguster fixed rate (struct. device “dev; Const Char “nance, 
const char "parent name, unsigned. long flags, 
unsigned long fixed rate); 

Seruce Clk Wolk @eCuster gaten truco device “dev, Conse Char “nae, 
const Char “parent name, unsigned long flags, 
void | iomem *reg, u8 bit idx, 
us GLK gate tiage, SDEIDLLOOK C *21095)7 

Sseruce Clk Solik register drivrder(struct device: “deyv; const char "name, 
Const char *parent name, unsigned Long flags, 
void | iomem *reg, u8 shift, u8 width, 
us Clk divider rlagse, Spinlock t *Lock); 


Cdrivers/clk/clk-prima2.c 为 例 ， 与 该 驱动 对 应 的 心 厂 SiRFprimall 的 外 围 接 了 一 个 26MHz 的 品 振 和 一 个 
32.768kHz 的 RTC 铝 振 ， 在 26MHz 品 振 的 后 面 又 有 3 个 PLL， 当 然 PLEL 后 面 又 接 了 更 多 的 clk 贡 点 ， 则 它 的 相 
AUD JA nig 8.20.26 PTZR -o 


代码 清单 20.26 clk 张 动 案例 


Static. unsigned long PLL clk recalc rote(struct clk hw “hw, 
2unsigned long parent rate) 

o 

Junsigned long fin = parent rate; 

OSLPUCC CLK pil, olk =- CO PLILOCLk (aw) 7 

On 

p 

8 
es 
l0unsrgned Long parent race) 
Ili 
12... 
13} 
14 
losStqgtro ant pid Clk Set rate (scruce cik nw hy Unsigned long trare; 
lounsigned long parent rate) 


17 { 

Wos 

19) 

20 

2lStaLre Struct. GLK ops SUO DLL ops = 1 
22«recalc rare = pli oclk reocabo rate, 
ZoO«rOUNnd. tate = ILL Clk. round. rave, 

Lessee Lave = pli, Clk Seb rale; 

25]; 

26 

Alp aLi Cons” Char DLL Clk Parentesl) = 4 

20 OSC, 

29]; 

30 

SUSDSLLIC Steucb Clk init data Cik DLL INIL = 4 
32.name = "p111", 

352005 = &SUtO pops, 

Sd.parent Hames = pll cle parents; 

304 0UM Parents. = ARRAY SLAB(pll clk parente); 
36}; 

37 

SOBDQLIC Struct Clk amit dala Clk PLL- IMLL = 4 
39.name = "p112", 


20 Ope = &stda PLL opsy 


fleparent Names = pli clk parents, 
d2 nüm parents = ARRAY SIZE (pill clk parents), 


43 
44 


ASSCaACLC SULIUCL CLK InLe data clk pills Init = 4 


46.name = "pll3", 
Li Ops = Cold pill. ops, 


48.parent names = plL clk parents, 
donum parents = ARRAY SLAEb(pll clk parents), 


Oh 
51 


OeSLatrc ebrUOCt elk pll olk PLIL = { 
DO.Pegors e SIRESOOU CURC ‘Phil OFGU, 


b4.hw = { 


95 sAn = Otk PELL InI; 


svota 1G Ssuruce CLE PLL clk. pliz = 1 
oU.TregoLs = SIRESOC CLERC PLL- CEGO; 


61.hw = { 


62 UDLG = SOLE pill INL; 


63], 


OSa Cio SLEUGL CIK PLL GLK pli = 1 
O.regors = OIBESOC ChKC Philo Creu, 


68.hw = { 


69 sini. = €cLE PLIO Init, 


pecs | 


76/* These are always available (RTC and 26MHz OSC) */ 
TICLE = CLK register fixed raLe(QNULL, “ere”, NUL, 
78 CLK Io ROOT; 227605) % 


79BUG ON (!clk) ; 


SUCK = Clk register Tiuxed race(NULL, “osc”, NULL, 
81 CLK IS ROOT? 2000000077 


82BUG ON(!clk); 
83 


84clk = clk register (NULL, 


85BUG ON(!clk); 


ooclk = clk register (NULL, 


87BUG ON(!clk); 


SUCIK = clk register (NULL; 


89BUG ON(!clk); 
90.. 
91} 


gclk plll.hw); 
&clk pll2.hw); 


SOL: pLLSDmw) 


太 外 ， 目 前 内 核 更 加 倡导 的 方法 是 通过 设备 树 来 摘 述 电路 板 上 的 时 钟 树 ， 以 及 时 钟 和 议 备 之 间 的 绑 定 
关系 。 通 争 我 们 需要 在 clk 控 制 右 的 节点 中 定义 #clock-cells 属 性 ， 并 且 在 ck 驱动 中 通过 
of clk add provider © 注册 时 钟 控 制 闫 为 一 个 时 钟 树 的 提供 者 (Provider) ， 并 建立 系统 中 各 个 时 钟 和 过 


SIAR E. U: 


sys 
security 
dsp 


gps 
mf 


在 每 个 具体 的 设备 中 ， 
使 用 的 时 钟 的 索引 ， 如 : 


e o OO =) OU 性 ON 上 OO 


对 应 的 .dts 节 点 上 的 clocks=<&clks index> 属 性 指向 其 引用 的 clk 控 制 器 节点 以 及 


gps@a8010000 ( 
compatible = "sirf,prima2-gps"; 
reg = «0xa8010000 0x10000»; 
interrupts = «7»; 
Clocks = <&clks 9>; 


要 特别 强调 的 是 ， 在 具体 的 设备 驱动 中 ， 一 定 要 通过 通用 clk API 来 操作 所 有 的 时 钟 ， 而 不 要 直接 通过 
读 写 clk 控 制 器 的 寄存 器 来 进行 ， 这 些 API 包 括 ， 


SULuCct, Clik "ole Gerot ruc evLce "dev. CONSE Char EG 
euruct SLk T0887 clk getistrugct device “dev, Const Tnear ung) 
Tae, “elk enable (tote cli ob 

Ine hk prepare (Struck ls FOLE)? 

VOLO CEKR unpre rareo CrO Clk "OLEO 
上 

Statre ile: iG CLR prepare eneb e(scruce clk "SOLE 
Stable: rnlzne.vord clk drssoDle unprepare(struct elk. Wolk)? 
unsigned dong elk get race (seruce Clk ole 

tie ‘Clk Set spate. (Struce, clk “elk, Une roned Long tae), 
SETUCE ‘Clik. “Clk Get parenclstruce. CLE COE 

Me ‘Clk Gee Parene(scruce CLR “clk; TEU. Clk Spaces 


值得 一 提 的 是 ， 名 称 中 含有 prepare、unprepare 字 符 串 的 API 是 内 核 后 来 才 加 入 的 ， 过 去 只 有 
clk enable () 和 clk disable () 。 只 有 clk enable €) 和 clk disable O 带 来 的 问题 是 ， 有 时 候 ， 某 些 人 硬件 
使 能 /禁止 时 钟 可 能 会 引起 睡眠 以 使 得 使 能 /禁止 不 能 在 原子 上 下 文 进 行 。 加 上 prepare 后 ， 把 过 去 的 
clk enable O 分 解 成 不 可 在 原子 上 下 文 调 用 的 clk prepare O (该 函数 可 能 睡眠 ) 和 可 以 在 原子 上 下 文 调 
用 的 clk_enable () 。 而 clk prepare enable C2 则 同时 完成 准备 和 使 能 的 工作 ， 当 然 也 只 能 在 可 能 睡眠 的 上 
下 文 调 用 该 API。 


20.9 dmaengineJlXzjJ 


dmaenginezé — SiM HJJDMAJBRZ/HEZS, TATE ZJ-H. Vs fs HHDMAGEDGB IP) V e UJ DE Y — S6 HJ 


ry Hie X. Y FRHATRBJDMAZÉ mI BS SEX APITIIZI TE» 


对 于 使 用 DMA 引 擎 的 设备 驱动 而 言 ， 发 起 DMA 传 输 的 过 程 变 得 整洁 了 ， 如 在 sound 子 系统 的 
sound/soc/soc-dmaengine-pcm.c 中 ， 会 使 用 dmaengine 进 行 周 期 性 的 DMA 传 输 ， 相 关 的 代码 如 清单 20.27 所 


小。 


代码 清单 20.27 dmaengine API 的 使 用 


lIsrtatrio rnt dmaengine pcm. prepare and Submit (Struct snd. pom.substream *subscream) 


Z1 

3 Struct dmaengrine pom runtime data prcd = .substream to pried (subsitredm); 
4 struct dna Chan “Chan = preto--ome cnan; 

a struct dma async ex -Cescriplor "desc; 

6 enum dma transfer direction direction; 

7 unsigned long tlags = DMA CIRL ACK, 

8 

9 

10 desc = dmaengine prep dma cyclic(chan, 

11 substream--runtime->dma. addr, 

eZ sno pom Lib Duller bytes (substream), 

1.9 snd pcm. Lib period bytesisubDstrean), direction, tlags).; 
14... 

15 desc->callback = dmaengine pcm dma complete; 

16 OSeSsCce7Call back param = substreamn; 

L prtd->cookie = dmaengine submit (desc); 

18} 

1.9 
20int snd dmaengine pcm trigger (struct snd pcm substream *substream, int cmd) 
24.1 
252 Struct. dmaengine pcm runtime data *prtd = substréam to prtd(substream); 
223 int ret; 
24 switch (cmd) { 
E case SNDRV PCM TRIGGER SILARDI 
26 ret = dmaengine pcm prepare and submit (substream) ; 
Z1 " 
28 dma async issue pending(prtd-»dma chan); 
29 break; 

30 case SNDRV PCM TRIGGER RESUME: 

oi case SNDRV PCM TRIGGER PAUSE RELEASE: 

32 dmaengine resume(prtd-»dma chan); 

ce. break; 

34 

35] 


这 个 过 程 可 分 为 4 步 : 


1) 通过 dmaengine prep dma xxx () 初始 化 一 个 具体 的 DMA 传 输 摘 述 


FT 《本 例 中 为 结构 体 


dma async tx_descriptor 的 实例 desc， 本 例 是 一 个 周期 性 DMA， 因 此 第 10 行 调用 的 是 


dmaengine prep dma cyclic () ) 。 


2) 通过 dmaengine submit O 将 该 摘 述 符 插 入 dmaengine 弛 动 的 传输 队列 《〈 见 第 17 行 ) 。 


3) 在 需要 传输 的 时 候 通 过 类 似 dma async issue pending O 的 调用 局 动 对 应 DMA 通 道上 的 传输 《〈 见 


第 28 行 ) 。 


4) DMA 的 完成 ， 或 者 周期 性 DMA 完 成 了 一 个 周期 ， 都 会 引 友 DMA 传 输 摘 述 符 的 完成 回调 函数 被 调 
用 (本 例 中 的 赋值 在 第 15 行 ， 对 应 的 回调 函数 是 dmaengine pem dma complete) . 


也 束 古 不 官 具体 便 件 的 DMA 控 制 需 是 如 何 实 现 的 ， 在 软件 意义 上 部 抽象 为 了 设置 DMA 插 述 从 、 将 
DMA 插 述 从 插入 传输 队列 以 及 局 动 DMA 传 输 的 过 程 。 


除了 前 文 提 到 的 用 dmaengine prep dma cyclic O 定义 周期 性 DMA 传 输 外 ， 还 有 一 组 类 似 的 API 可 以 
用 来 定义 各 种 类 型 的 DMA 摘 述 从 ， 特 定 便 件 的 DMA 了 驱动 的 主要 工作 就 是 实现 封装 在 内 核 dma device 结 构 
体 中 的 这 些 成 员 函 数 〈 定 义 在 include/linux/dmaengine.h 头 文件 中 ) : 


+ 


Struct- dma. device = anto Om the entity Supplying DMA ‘services 

Gdevrce prep dma memcpy: prepares a memcpy operatrion 

Gdevrce prep dma xor: prepares a xor operatron 

Gdevrce prep dma: Xor vals prepares a xor validation operation 

Gdevrce prep ema pq: prepares w pq Operatron 

Gdevrce prep dma pog vals prepares e pqdzero Sum Operatrton 

Gdevrce prep dma menset: prepares a memset Operation 

Gdevroe Prep Oma Interrupt: prepares. am end Or Chain. ZBrerrPupt Operavion 

Gdevrce prep slave sg: prepares a slave dma “operation 

Gdevice prep dma cyclic. prepare -ada cyclic dma operation surcable for audio: 
Phe: runcLrton takes a DUL eD On save bur ben. The. cablloack function WLLL 
De called: alter period Lem Dyles eve Deen Trolo erred; 

(device prep Interleaved dia? Vransier express ron .Lm cm Generic wey 


Root ob oto ot ot o FF FF Æ Æ Æ F HF F 


SS 


在 确 层 的 dmaengine 驱 动 实 例 中 ， 一 般 会 组 织 好 这 个 dma_device 结 构 体 ， 并 通过 
dma async device register () 完成 注册 。 在 其 各 个 成 员 图 数 中 ， 一 般 会 通过 链表 来 管理 DMA 摘 述 符 的 运 
行 、free 等 队列 。 


dma_device 的 成 员 函 数 device issue pending (OO 用 于 实现 DMA 传 输 开 局 的 功能 ， 每 当 DMA 传 输 完 成 
后 ， 在 张 动 中 注册 的 中 断 服 务 程序 的 项 半 部 或 者 确 半 部 会 调用 DMA 摘 述 符 dma async tx descriptor 中 设置 
的 回调 函数 ， 访 回调 函数 来 源 于 使 用 DMA 通 道 的 设备 张 动 。 


HH f) dmaengineJkz/] n] W, T drivers/dma/ H 3& F H'Jsirf-dma.c. omap-dma.c. pl330.c. ste dma40.c 等 。 


20.10 K2 


移植 Linux 到 全 新 的 SMP SoC 上 ， 需 在 底层 提供 定时 器 节拍 、 中 断 控 制 器 、SMP 启 动 、GPIO、 时 钟 、 
pinctrl 等 功能 ， 这 些 底 层 的 功能 被 封装 好 后 ， 其 他 设备 张 动 只 能 调用 内 核 提供 的 通用 API。 这 良好 地 体现 
了 内 核 的 分 层 设 计 ， 即 驱动 都 调用 与 硬件 无 关 的 通用 API， 而 这 些 API 的 底层 实现 则 更 多 的 是 填充 内 核 规 
整 好 的 回调 函数 。 


Linux 内 核 社区 针对 pinctrll、 时 钟 、GPIO、DMA 提 供 独 立 的 子 系 统 ， 既 给 具体 的 设备 驱动 提供 了 统一 
的 API， 进 一 步 提 和 高 了 设备 驱动 的 跨 平 台 性 ， 叉 为 每 个 SoC 和 设备 实现 这 些 确 层 API 定 义 好 了 条 条 框框 ， 从 
而 可 以 在 最 大 程度 上 避免 每 个 便 件 实现 过 多 的 元 余 代 但 。 


第 21 章 Linux 设备 驱动 的 调试 


“ 工 欲 善 其 事 ， 必 先 利 其 器 ”， 为 了 方便 进行 Linux 设 备 驱 动 的 开发 和 调试 ， 建 立 良好 的 开发 环境 很 重 
要 ， 还 要 使 用 必要 的 工具 软件 以 及 掌握 常用 的 调试 技巧 等 。 


21.1 HUE f Linux F Wi] vA28GDBHBJZ& A RJ YE 13x 77 
21.2 节 讲解 了 Linux 内 核 的 调试 方法 。 


21.3~21.10 节 对 21.3 节 的 概述 展开 了 讲解 ， 内 容 有 : Linux 内 核 调试 用 的 printk O ~ BUG ON O 、 
WARN ON () 、/proc、Oops、strace、KGDB， 以 及 使 用 仿真 器 进行 调试 的 方法 。 


21.11 市 讲解 了 Linux 应 用 程序 的 调试 方法 ， 驱 动工 程 师 往往 需要 编写 用 户 空 间 的 应 用 程序 以 对 目 里 编 
写 的 张 动 进行 验证 和 调试 ， 因 此 ， 和 营 握 应 用 程序 调 放 方 法 对 张 动工 程 师 而 言 也 是 必需 的 。 


21.12 节 讲解 了 Linux 常 用 的 一 些 稳定 性 、 性 能 分 析 和 调 优 工具 。 


21.1 GDB 调 试 器 的 用 法 


21.1.1 GDB 的 基本 用 法 


GDB 是 GNU 开 产 组 织 发 布 的 一 个 强大 的 UNIX 下 的 程序 调试 工具 ，GDB 主 要 可 帮助 工程 师 完成 下 和 面 4 
个 方面 的 功能 。 


启动 程序 ， 可 以 按照 工程 师 自 定义 的 要 求 运 行程 序 。 

-让 被 调试 的 程序 在 工程 师 指 定 的 断 点 处 停 住 ， 断 点 可 以 是 条 件 表达 式 。 
. 当 程 序 被 停 住 时 ， 可 以 检查 此 时 程序 中 所 发 生 的 事 ， 并 追踪 上 文 。 
动态 地 改变 程序 的 执行 环境 。 


不 官 是 调试 Linux 内 核 空间 的 驱动 还 是 调试 用 户 空 间 的 应 用 程序 ， 痢 必须 掌握 GDB 的 用 法 。 而 且 ， 在 
调试 内 核 和 调试 应 用 程序 时 使 用 的 GDB 命 令 是 完全 相同 的 ， 下 面 以 代码 清 时 21.1 的 应 用 程序 为 例 演 示 
GDB 调 试 右 的 用 法 。 


代码 清单 21.1 GDB 调 试 器 用 法 的 演示 程序 


lint add(int a, int b) 
24 
3 return a + b; 


8 int sum[10] - 

- EE 
LO Oy Of Ur Uy DU UO De. Up U 
ll J; 
L2 20t ij 
14 int arrayl[10] = 
loa 4 
LG 46, 6, Id, 337 Op Lly 220, 544, T2; 90 
dg pug 
18 int array2[10] = 


ZU. Bor 93, 60, UxL99, 393, lb Lp Ze Sy 4 


23 tor (n = Ue i < 10: 144) 


25 sum[i] = add(arrayl[i], array2[1]); 


使 用 命令 gcc-g gdb example.c-o gdb example 编 详 上 述 程序 ， 得 到 包含 调试 信息 的 二 进 制 文 件 
example， 执 行 gdb gdb example 命令 进入 调试 状态， 如 下 所 未 : 


5 gdb gdb example 

GNU gdb (Ubuntu J.7-00DUmntu-.L) 437 

Copyright (C) 2014 Free Software Foundation, Inc. 

License GPLv3+: GNU GPL version 3 or later «http://gnu.org/licenses/gpl.html» 


This is free software: you are free to change and redistribute it. 

There 1S NO WARRANTY, to the extent permitted by law. Type "show copying" 
and "show warranty" for details. 

This GDB was configured as "ió686-linux-gnu". 

Type "show configuration" for configuration details. 

For bug reporting instructions, please see: 
<http://www.gnu.org/software/gdb/bugs/>. 

Find the GDB manual and other documentation resources online at: 
<http://www.gnu.org/software/gdb/documentation/>. 


For help, type "help". 
Type "apropos word" to search for commands related to "word". 
(gdb) 
: eoo sc A 
1 .list 命令 


在 GDB 中 运行 list 命 令 〈 缩 写 1) 可 以 列 出 代码 ，list 的 具体 形式 如 下 。 


.ist<linenum>， 显 示 程 序 第 lnenum 行 周围 的 源 程 序 ， 如 下 所 示 : 


(gdb) list 15 

10 

LL int arrayl[10] = 

12 { 

13 A95 S304 Tir oo; 329 Lly 220,9 9440. To; 90 
14 ); 

Bo inr. arrayz [10] = 

16 { 

L7 DO, 99, 66, 04199, 393, dh, ly €, 3, 4 
18 E 

19 


‘list<function>, ŒR AAZ Nfunction Hj ee ALA JURE FE, GOR Pom: 


(gdb) list main 

2 { 

3 return a + b; 
4 ) 

3 

6 main () 

7 { 

8 int sum[10]; 
9 int i? 

10 

11 int arrayl[10] - 


ist， 显示 当前 行 后 面 的 源 程 序 。 


list, Me 7N SV HUTT HU VE e 


下 面 污 示 了 使 用 GDB 中 的 run CA8 5 Ar) . break (495 Nb) . next (44-5 Nn) 


47, HE Hprint CA 3 Np) 命令 打印 程序 中 的 变量 sum 的 过 程 : 


(gdb) break add 
Breakpoint 1 at Oxe804e277: file gdb example.c, line 3. 
(gdb) run 


Starting program; 
Breakpoint 1, add 


/driver study/gdb example 
(a=46, b=85) at gdb example.cis 


warning: Source file is more recent than executable. 
3 return a + b; 

(gdb) next 

* j 

(gdb) next 

main 4) at: gdo example.o:292 

之 过 for (1 = 0; 1 < 10; itt) 

(gdb) next 

25 sum[i] = add(arrayl[i], array2[il); 


命令 控制 程序 的 运 


(gdb) print sum 
ol = (133, 0; Oy. 0, 0} D U0, 0; 0, 0} 


2.run 命 令 
在 GDB 中 ， 运 行程 序 使 用 run 命 令 。 在 程序 运行 机， 我 们 可 以 设置 如 下 4 方面 的 工作 环境 。 
(1) 程序 运行 参数 


用 set args 可 指定 运行 时 参数 ， 如 set args 10 20 30 4050; 用 show args 命 令 可 以 查看 设置 好 的 运行 参 
BX o 


(2) 运行 环境 


用 path<dir> 可 设 定 程序 的 运行 路 径 ， 用 how paths 可 碍 看 程序 的 运行 路 径 ， 用 set environment 
varname[=value] 可 设置 环境 变量 ， 如 set env USER=baohua; 用 show environment[varname] 则 可 查看 环境 变 


n 


(3) 工作 目录 
cd<dir> 相 当 于 shell 的 cd 命令 ，pwd 可 显示 当前 所 在 的 目 孙 。 
(4) 程序 的 输入 输出 


info terminal 用 于 显示 程序 用 到 的 终 病 的 模式 ;在 GDB 中 也 可 以 使 用 重 定 同 控制 程序 输出 ， 如 
run>outfile; 用 tty 命 令 可 以 指定 输入 得 出 的 终 问 放 备 ， 如 ttydewttyS1。 


3.break 命 令 
在 GDB 中 用 break 命 令 来 设置 新 点 ， 设 置 和 新 点 的 方法 如 下 。 
(1) break<function> 


在 进入 指定 函数 时 候 住 ， 在 C++ 中 可 以 使 用 class: : function=%function (type, type) f&xXoKdRaE eA 


(2) break<linenum> 
在 指定 行 号 保住 。 
(3) break+offset/break-offset. 


在 当前 行 和 号 的 前 面 或 后 面 的 offset 行 停 住 ，offset 为 日 然 数 。 


(4) break filename: linenum 
在 源 文 件 filename 的 linenum 行 处 俘 住 。 
(5) break filename: function 
在 源 文 件 flename 的 fonction 函 数 的 入 口 处 停 住 。 
(6) break*address 
在 程序 运行 的 内 存 地 址 处 俘 住 。 
(7) break 
break 命 令 没 有 参数 时 ， 表 示 在 下 一 条 指令 处 停 仕 。 
(8) break...if<condition> 


.可 以 是 上 述 的 break<linenum>、breakrofRebbreak ofRet 中 的 参数 ，condition 表 示 和 条件， 在 条 件 成 立 
时 停 住 。 比 如 在 循环 体 中 ， 可 以 设置 break ifi=100， 表 示 当 i 为 100 时 停 住 程序 。 


查看 断 点 时 ， 可 使 用 info 命 令 ， 如 info breakpoints[n]. info break[n] (nz€zR «Brei m . 
4. 单 步 命令 


在 调试 过 程 中 ，next 命 令 用 于 单 步 执行 ， 类 似 于 VC++ 中 的 step over。next 的 单 步 不 会 进入 函数 的 内 
部 ， 与 next 对 应 的 step (48S As) 命令 则 在 单 步 执 行 一 个 函数 时 ， 进 入 其 内 部 ， 关 似 于 VC++ 中 的 step 
into。 下 面 演示 了 step 命 令 的 执行 情况 ， 在 第 23 行 的 add() 函数 调用 处 执行 step 会 进入 其 内 部 的 return 
atb; if): 

(gdb) break 25 

Breakpoint L at 0xo0402021 tile gdb example.c, Dine 25. 

(gab) run 

Starting program: /driver study/gdb example 
Breakpoine 1, Main () ac gdb exampleec:295 
25 sum[i] = add(arrayl[i], array2[il); 
(gdb) step 


add (a=48, b=85) at gdb example.c:3 
3 return a + b; 


于 步 执行 的 更 复杂 用 法 如 下 。 
(1) step<count> 


单 步 跟踪 ， 如 采 有 函数 调用 ， 则 进入 葬 函 数 《〈 进 入 函数 的 前 所 是 ， 些 函数 被 编 详 有 debug 信 息 ) . step 
后 面 不 加 count 表 示 一 条 条 地 执行 ， 加 count 表 示 执 行 后 面 的 count 条 指令 ， 然 后 再 停 住 。 


(2) next<count> 


单 步 跟踪 ， 如 果 有 函数 调用 ， 它 不 会 进入 该 函数 。 同 理 ，next 后 面 不 加 count 表 示 一 条 条 地 执行 ， 加 
count 表 示 执 行 后 面 的 count 条 指令 ， 然 后 再 停 住 。 


(3) set step-mode 


set step-mode on 用 于 打开 step-mode 模 式 ， 这 样 ， 在 进行 单 步 跟 躁 ( 运 oe S) 时 ， 石 跨越 菜 没 有 
调试 信息 的 函数 ， 程 序 的 执行 则 会 在 该 冰 数 的 第 一 条 指令 处 集 住 ， 而 不 会 跳 过 图 数 。 这 样 我 们 可 以 得 
看 该 函数 的 机 规 指 令 


(4) finish 
ZTE, HARER, IFFT E eR ACU IRIS] A HERR HE. IRIE RES SAE e 
(5) until (445 Nu) 


— ELLE EA AA AUT A TB toe — He Am Seta, Hunti e n] Us TT Fee BBB Hi f P^ 
体 。 


(6) stepi (49 Nsi) 和 nexti (缩写 为 ni ) 


stepi 和 nexti 用 于 单 步 跟 踩 一 条 机 项 指令 。 比 如 ， 一 条 C 程 序 代 码 有 可 能 由 数 条 机 需 指 令 完 成 ，stepi 和 
nextiu] 以 单 步 执 行 机 器 指令 ， 相 反 ，step 和 next 是 C 语 言 级 别 的 命令 。 


态 外 ， 运 行 displayiqgpc 命 令 后 ， 单 步 跟踪 会 在 打出 程序 代码 的 同时 打出 机 纶 指令 ， 即 汇编 代 但 。 


5.continue 命 令 


当 程 序 被 俘 住 后 ， 可 以 使 用 continue 命 令 “〈 缩 写 为 c， 人 命令 同 continue 命 令 ) 恢复 程序 的 运行 直到 程序 
结束 ， 或 到 达 下 一 个 断 点 ， 命 令 格式 为 : 


continue [ignore-count] 
c [ignore-count] 
fg [ignore-count] 


ignore-countz& zs Allg Ja BZD UK T xà o 


BERIA T ERANT add O ， 并 观察 1i， 则 在 continue 过 程 中 ， 每 次 遇 到 add〈) 函数 或 i 肥 生变 
化 ， 程 序 吏 会 俘 住 ， 如 下 所 示 : 


(gdb) continue 
Continuing. 

Hardware watchpoint 3: 1 
Old value = 2 


New value = 3 
Ox0804838d in Main () at. gdb example.c:23 
23 for (1 = 0; 


pL < LO? TTL) 
(gdb) continue 
Continuing: 
BESSKDOXDL l; Main () at gdD example.c:29 
25 sum[i] = add(arrayl[i], array2[1i]); 
(gdb) continue 
Continuing: 


Hardware watchpoint 3: 1 
Old value = 3 
New value = 4 


0x0504530d in main () at gdb -example.c:23 
23 LOP CL = UF 1i < 107 a+) 
6.printti > 


在 调试 程序 时 ， 当 程序 极 俘 住 时 ， 可 以 使 用 print 命 
程序 的 运行 数据 。print 命 令 的 格式 如 下 : 


print <expr> 
print J€rL^ <expr> 


<expr>ve IATL, HRVATE P RIA 
进 制 的 格 却 输出 ， 那 么 吏 是 入 。 在 表达 
中 ，@ 是 一 个 和 数组 有 关 的 操作 从 ，: : dH 
器 内 存 地 址 <addr> 的 类 型 为 type 的 对 象 。 


下 面 演示 了 查看 sum[] 数 组 的 值 的 过 程 : 


(gdb) print sum 
D2 s T1353. 155, 0, 0, D. D. Qu. D. 0, 0 
(gdb) next 


Breakpolnt Ly Maun. () ac gdb example.c: 25 

25 sum[i] = add(arrayl[i], array2[1i]); 
(gdb) next 

23 for (1 = 0; i < 10; itt) 


(gdb) print sum 
og e (133, 255, 1493, O; 0; 0; D, 0, D. 0} 


大 式 ，< 仑 是 输出 的 格式 ， 比 如 ， 如 果 要 把 表达 
大 式 中 ， 有 几 种 GDB 所 支持 的 操作 符 ， 


p (fi 5 Np) ， 或 是 同 义 命 令 inspect 来 租 看 当前 


大 陈 控 十 六 
它们 可 以 用 在 任何 一 种 语言 


定 一 个 在 文件 或 是 函数 中 的 变量 ，{<type>}<addr> 表 示 一 个 指 


@ 的 左边 是 第 一 个 内 存 地 址 ，@ 的 


当 需 要 奉 看 一 段 连续 内 存 空间 的 值 时 ， 可 以 使 用 GDB 的 @ 操 作 符 ， 
右边 则 是 想 得 看 内 存 的 长 度 。 例 如 如 下 动态 申请 的 内 存 : 
int. *array = (int ^) malloc (len * sizeof (inc):); 


££ GDB Wal UL FE HE Si NIK PON AS BUA VIE: 


p *array@len 


print 的 输出 格式 如 下 。 


X: 按 十 六 进 制 格式 显示 变量 。 


d: TERE EREE o 


u: 投 十 六 进 


o: 4 / GEE TI) A SUE AN AEE o 


a: 按 十 六 进 


女 二 进 制 格式 显示 变量 。 


# 制 格式 显示 变量 。 


e: RP PPE LASER. 


£i TERA BUR NEZ AE EE 


我 们 可 用 display 命 令 设 症 一 些 目 动 旺 示 的 变量 ， 当 程序 停 住 时 ， 或 是 单 步 跟 踪 时 ， 这 些 变量 会 目 动 沁 


ZN o 


如 末 要 修改 变量 ， 如 x 的 人 ， 可 使 用 如 下 命令 


print x=4 


x HGDB print AFET ZIT BRIN, BE—~Nprint#h 4X GDBiusx FHKE. GDBAVA$I, $2, $3... 
XERA SUA BE T print SaaS. RITE EA f Ax Tr Sr vi I EA BUS WISI. 


7 watchüp 4» 


watch 一 般 用 来 观察 某 个 表达 
程序 运行 。 我 们 有 如 下 几 种 方法 来 设置 观察 点 。 


watch<expr>: 为 表达 
rwatch<expr>: 当 表 达 
awatch<expr>: 当 表 达 


info watchpoints: 


下 面 演示 了 观察 并 在 连续 运行 


(gdb) watch 1 


Hardware watchpoint 3: 


(gdb) next 


23 COE 


(gdb) next 


Hardware watchpoint 3: 


Old value 
New value 


O 
1 


ih = 


0; 


Ax 《楼 旺 也 是 一 种 表达 


AX (=) expr 设 置 一 个 观察 点 。 一 


列 出 当前 所 设置 的 所 有 观察 点 。 


i 


i< Los 


1 


i++) 


next 时 一 旦 发 现 


R, MAMRE 


AX PB 


H KRIK 


大 式 〈 和 变量 ) expr 侯 读 时 ， 仿 止 程序 运行 。 


CHI. MRAZE, H EFE 


陈 信 有 变化 时 ， 马 上 停止 程序 运行 。 


AX CZE) 的 值 被 读 或 航 与 时 ， 俘 止 程序 运行 。 


示 出 来 的 过 程 


Ux0504556d in 和 


223 for (2 = Of 1 = 107 i-r) 

(gdb) next 

Breakpoint 1, main () at gdb example.c:25 

25 sum[i] = add(arrayl[i], array2[1i]); 
(gdb) next 

23 tor (2 = 07 Lx < LO? T4) 

(gdb) next 


Hardware watchpoint 3: i 

Old value = 1 

New value = 2 

0x0804838d in main () at gdb example.c:23 
23 for (1 = 0; 1 < 10; itt) 


8 examiner 4 
BATH) VA Fdexaminett > (48S Nx) 来 查看 内 存 地 址 中 的 值 。examine 命 令 的 语法 如 下 所 示 : 


wx ni Sacddr 


<addr> 表 示 一 个 内 存 地 址 。“x/* 后 的 n、 下 u 都 是 可 选 的 参数 ，n 是 一 个 正 整 数 ， 表 示 显 示 内 存 的 长 
度 ， 也 就 是 说 从 当前 地 址 向 后 显示 几 个 地 址 的 内 容 ; 全 示 显 示 的 格式 ， 如 果 地 址 所 指 的 是 字符 串 ， 那 么 
格式 可 以 是 s， 如 果 地 址 是 指令 地 址 ， 那 么 格式 可 以 是 i; u 表 示 从 当前 地 址 往 后 请 求 的 字 节 数 ， 如 果 不 指 
定 的 话 ，GDB 默 认 的 是 4 字 节 。u 参 数 可 以 被 一 些 字符 代 蔡 : be NH, RAM, wee, 
g 表 示 八 字 节 。 当 我 们 指定 了 字 节 长 度 后 ，GDB 会 从 指定 的 内 存 地 址 开始 ， 读 写 指定 字 节 ， 并 把 其 当 作 一 
个 值 取出 来 。n、f、u 这 3 个 参数 可 以 一 起 使 用 ， 例 如 命令 x/3uh 0x54320 表 示 从 内 存 地 址 0x54320 开 始 以 双 
STAI RA (h)〉、16 进 制 方式 Cu) 显示 3 个 单位 〈3) WA. 


9.Set 命 令 
examine 命 令 用 于 查看 内 存 ， 而 set 命 令 用 于 修改 内 存 。 它 的 命令 格式 是 “set* 有 类 型 的 指针 =value”。 
比如 ， 下 列 程序 ， 在 用 gdb 运 行 起 来 后 ， 通 过 Ctrl+C 停 住 。 


main () 


VOLO *p = malloc (1s) ; 
while(1); 


我 们 可 以 在 运行 中 用 如 下 命令 来 修改 p 指 网 的 内 存 。 


(gdb) set *(unsigned char *)p="h' 

(gdb) set *(unsigned char *) (ptl)='e' 
(gdb) set *(unsigned char *) (pt2)='1' 
(gdb) set *(unsigned char *) (pt+3)='1' 
(gdb) set *(unsigned char *) (pt4)='o' 


(gdb) x/s p 
Ox804b008: "hello" 


也 可 以 直接 使 用 地 址 第 效 : 


(gdb) P P 

$2 = (void *) 0x804b008 
) set *(unsigned char *)0x804b008='w' 
) set *(unsigned char *)0x804b009='o' 

gdb) set *(unsigned char *)0x804b00a='r' 
) set *(unsigned char *)0x804b00b-2'Il' 
) * *) d 


gdb) set *(unsigned char 0x804b00c-2'd' 
gdb) x/s 0x804b008 
Ox804b008: "world" 


10.jump ti 


AAR» BEE TRE Ar oe T FG Re AP AS STIFT, MEGDB EH f ALIAT HID RE, 
也 就 是 说 ，GDB 可 以 修改 程序 的 执行 顺序 ， 从 而 让 程序 随意 跳跃 。 这 个 功能 可 以 由 GDB 的 jump 命 令 
jump<linespec> 来 指定 下 一 条 语句 的 运行 点 。<linespec> 可 以 是 文件 的 行 号 ， 可 以 是 file: line 格 式 ， 也 可 以 
是 tnum 这 种 仿 移 量 格式 ， 表 示 下 一 条 运行 语句 从 哪里 开始 。 


Jump <address> 


这 里 的 <address> 是 代码 行 的 内 存 地 址 。 


令 不 会 oii en 
转 到 的 函数 运行 完 返回 ， 进 行 出 栈 操作 时 必然 会 发 生 错 误 ， 这 可 能 会 导致 意 想不到 的 结果 ， 因 此 最 好 只 用 
jump 在 同一 个 函数 中 进行 跳 转 。 


VER: jump tit 


11.signal 命 令 


使 用 singal 命 仿 ， 可 以 产生 一 个 信号 量 给 个 调 试 的 程序 ， 如 中 靳 信号 CtrltC。 于 是 ， 可 以 在 程序 运行 
的 任意 位 置 处 设置 断 点 ， 并 在 该 新 点 处 用 GDB 产 生 一 个 信号 星 ， 这 种 精确 地 在 共处 产生 信和 号 的 方法 非 帝 
有 利于 程序 的 调试 。 


signal 命 令 有 的 语法 是 signal<signal>，UNIX 有 的 系统 信号 量 通 第 为 1~15， 因 此 <signal> 的 取 值 也 在 这 个 汇 
内 。 


12.return 命 邻 


如 末 在 函数 中 设置 了 调 弃 断 点 ， 在 断 点 后 还 有 语句 没有 执行 守 ， 这 时 候 我 们 可 以 使 用 retum 命 令 强 制 
图 数 忽略 还 没 有 执行 的 语句 并 返 


Percurn 
return «expression» 


上 上述 return 命 令 用 于 取消 当前 图 数 的 执行 ， 并 立即 返回 ， 如 果 指 定 了 <expression>， 那 么 该 表达 式 的 什 


会 被 作为 图 数 的 返回 值 。 
13.call 命 令 
call 命 令 用 于 强制 调用 霖 函数 : 


call <expr> 


AeA TVA] vere, DACA A sitll Pel PRN A, ERER ERU XL [B MEE R RBG [BME AN 
void) 。 比 如 和 在 下 列 程序 执行 while〈1) 的 时 候 : 


main () 


VOI “eo = nialloc( 1G); 
while(1); 


我 们 强制 要 求 其 执行 strcpy ©) 和 printf OO : 


(gdb) call strcpy(p, "hello world") 
S3 = 134524936 

(gob). call printfi("S$sSXn", p) 

hello world 

Sd = 12 


14.infor 4 


info 命 令 可 以 用 来 在 调试 时 查看 寄存 器 、 断 点 、 观 察 点 和 信号 等 信息 。 要 查看 寄存 器 的 值 ， 可 以 使 用 
如 下 命令 : 


info registers “查看 除了 浮 点 寄存 器 以 外 的 寄存 器 》 
info all-registers (查看 所 有 寄存 器 ， 包 括 浮 点 寄存 器 ) 
info registers «regname ...> (查看 所 指定 的 寄存 器 ) 


ZEW ERES ADEA a Rare: 





info break 要 列 出 当前 所 设置 的 所 有 观察 点 ， 可 使 用 如 下 命令 : 
info watchpoints 


要 查看 有 哪些 信号 正在 被 GDB 检 测 ， 可 使 用 如 下 命令 : 


info signals 
info handle 


也 可 以 使 用 info line 命 令 来 查看 源 代 码 在 内 存 中 的 地 址 。info line 后 面 可 以 跟 行 号 、 函 数 名 、 文 件 名 : FF 
写 、 文 件 名 : 国 数 名 等 多 种 形式 ， 例 如 用 下 面 的 命令 会 打印 出 所 指定 的 源码 在 运行 时 的 内 存 地 址 : 


into line tst.ctfune 


15.disassemble 


disassemble 9 Hl L4. A) ARE KA GS BAT np sa, Sb ER IER BIA 
HJ48- HSE. «RE aN BI FP ER A func H9 2L 2m f: 


(gdb) disassemble func 
Dump of assembler code for function func: 


0x8048450 «func»: push $ebp 

Ox6046451 «fünctl-»: mov sesp, sebp 

0x8048453 «funct3»: sub $0x18,$esp 

0x8048456 <funct6é>: movl SOxO,UXITIIrtffo(lcebp) 


End of assembler dump. 


21.1.2 DDD EAE 7 mf Us v LR; 


GDB 本 身 是 一 种 命令 行 调 试 工具 ， 但 是 通过 DDD (Data Display Debugger, J, 
http://www.gnu.org/software/ddd/)〉 可 以 被 图 形 界 面 化 。DDD 可 以 作为 GDB、DBX、WDB、Ladebug、 
JDB, XDB, Perl Debugger 或 Python Debugger 的 可 视 化 图 形 前 问 ， 其 特有 的 图 形 数 据 显 示 功 能 (Graphical 
Data Display〉 可 以 把 数据 结构 按照 图 形 的 方式 显示 出 来 。 


DDD 最 初 源 于 1990 年 Andreas Zeller 编 号 的 VSL 结 构 化 语言 ， 后 来 经 过 一 些 程序 员 的 努力 ， 演 化 成 分 天 
的 模样 。DDD 的 功能 非常 强大 ， 可 以 调试 用 C/C++、Ada、Fortran、Pascal、Modula-2 和 Modula-3 编 写 的 程 
能 以 超 文 本 方式 浏览 源 代码 ;能够 进行 断 点 设置 、 回 漳 调 试 和 历史 记录 ; 具有 程序 在 终端 运行 的 仿真 
窗口 ， 具 备 在 远程 主机 上 进行 调试 的 能 力 ; 能 够 己 示 各 种 数据 结构 之 间 的 关系， 并 将 数据 结构 以 图 形 形 式 
X; 其 有 GDB/DBX/XDB 的 命令 行 界面 ， 包 括 完 整 的 文本 编辑 、 历 史 纪 录 、 搜 寻 引 擎 等 。 


DDD 的 主 界面 如 图 21.1 所 示 ， 它 和 Visual Studio 等 集成 开发 环境 非常 相近 ， 而 且 DDD 包 售 了 Visual 
Studio 所 不 包含 的 部 分 功能 。 




















int manCint /* = 


int i = 42; 
tree_test(); 


i+: 
list test] 
i+; 


Registers 


eax: Ox401a2db8 1075457464 a 
ecx: 0x8049¢94 134519956 | 














| edx: 0x401a1234 1075450420 
isis test ebx: Ox401a41b4 1075462580 
esp: Oxbfffef 30 -1073746128 
ebp: 0xbfffef48 -1073746104 
esi: Oxbfffe f94 -1073746028 





sri ng. test! 
plo t .testQ; 
type .testQ; 












edi: Ox 1 
eip: 0x8049c 4 134519969 
; " cou ex - Ox286 IOPL: 0 

: e n PF SF IF 
eax: Ox E N 
es: 













0x8049c9a r = 
bx8049ca1 <q Integer registers w All registers 
x ca 








f Fun p 
es i 
Ffffff. Gebp) - 
ing_test(void)> 








点 


图 21.1 DDD 的 主 界面 


在 设计 DDD 的 时 候 ， 设 计 人 员 诀 定 把 它 与 GDB 之 间 的 耦合 度 尽 量 降 低 。 因 为 像 GDB 这 样 的 开源 软 
件 ， 更 新 的 速度 比 商 业 软 件 快 ， 所 以 为 了 使 GDB 的 变化 不 会 影响 到 DDD， 在 DDD 中 ，GDB 是 作为 独立 的 
进程 运行 的 ， 通 过 命令 行 接口 与 DDD 进 行 交 互 。 


图 21.2 显 示 了 用 己 、DDD、GDB 和 被 调试 进程 之 则 的 天 系 ，DDD 和 GDB 之 间 的 所 有 通信 都 是 寞 步 进 
行 的 。 在 DDD 中 发 出 的 GDB 命 令 都 会 与 一 个 回调 函数 相连 ， 放 入 命令 队列 中 。 这 个 回调 函数 在 合适 的 时 
间 会 处 理 GDB 的 输出 。 例 如， 如 果 用 万 手动 输入 一 条 GDB 的 命令 ，DDD 了 束 会 把 这 条 命令 与 显示 GDB 输 出 
的 一 个 回调 函数 连 起 来 。 一 旦 GDB 命 令 完 成 ， 就 会 触发 回调 函数 '，GDB 的 输出 束 会 显示 在 DDD 的 命令 窗 
口中 。 


o Ref SF 


2 > inb f 
显示 / = 





X 程序 输出 / 


T. mem i ` 2 Y 
BURN | 被 调试 的 程序 





图 21.2” DDD 运行 机 理 


DDD 在 事件 循环 时 等 每 用 户 输入 和 GDB 输 出 ， 同 时 等 者 GDB 进 入 等 每 输入 状态 。 当 GDB 可 用 时 ， 下 
一 条 命令 就 会 从 命令 队列 中 取出 ， 送 给 GDB。GDB 到 达 的 输出 由 上 次 命令 的 回调 函数 过 程 来 处 理 。 这 种 
步 机 制 避 免 了 了 DDD 在 等 待 GDB 输 出 时 发 生 阻 塞 现象 ， 到 达 的 事件 可 以 在 任何 时 间 得 到 人 处理。 


不 可 人 否认 的 是 ，DDD 和 GDB 的 分 离 使 得 DDD 的 运行 速度 相对 来 说 比较 慑 ， 但 是 这 种 方法 市 来 了 灵活 
性 和 莱 容 性 的 好 处 。 例 如 ， 用 户 可 以 把 GDB 调 试 硕 换 成 其 他 调试 希 ， 如 DBX 等 。 另 外 ，GDB 和 DDD 的 分 
离 使 得 用 户 可 以 在 不 同 的 机 器 上 分 别 运 行 GDB 和 DDD。 


在 DDD 中 ， 可 以 直接 在 底部 的 控制 台中 输入 GDB 命 令 ， 也 可 以 通过 菜单 和 鼠标 以 图 形 方 式 触 发 GDB 
命令 的 运行 ， 使 用 方法 其 为 简单 ， 因 此 这 里 不 再 歼 


DDD 不 仅 可 用 于 调试 PC 上 的 应 用 程序 ， 也 可 调试 目标 板子 ， 方 法 生 用 如 下 命令 司 动 DDD ORN- 
debugger 选 项 指定 一 个 针对 ARM 的 GDB : 


ddd --debugger arm-linux-gnueabihf-gdb < 要 调试 的 程序 > 


除了 DDD 以 外 ， 在 Linux 环 境 下 ， 也 可 以 使 用 广 党 欢迎 的 Eclipse 来 编 与 代码 并 进行 调试 。 安 竣 Eclipse 
IDE for C/C++Developer 后 ， 在 Eclipse 中 ， 可 以 议 置 Using GDB (DSF) Manual Remote Debugging Launcher 
以 及 ARM 的 GDB 等 ， 如 图 21.3 上 所 示 。 








omatically debug forked processes (Note Requires Multi Process GDE) 


l i 12) 1 2 
| ) I % 
| ilb te Using GDB (DSF) Manual Remote Debugging Launcher - Setect other 








Close Debag 


[21.3 ”在 Eclipse 中 设置 Remote 调 试 模 式 和 GDB 


21.2 Linux 内 核 调 试 


在 通 入 却 系 统 中 ， 由 于 目标 机 资源 有 限 ， 因 此 往往 在 主机 上 先 编 详 好 程序 ， 再 在 目标 机 上 运行 。 用 户 
所 有 的 开 友 工作 都 在 主机 开发 环境 下 完成 ， 包 括 编 合 、 编 译 、 连 接 、 下 载 和 调试 等 。 目 标 机 和 主机 通过 串 
口 、 以 六 网 、 仿 真 货 或 其 他 通信 于 段 通 信 ， 主 机 用 这 些 接口 控制 目标 机 ， 调 弃 目 标 机 上 的 程序 。 


Wid atk A SX Linux A 4% B 77 2 UE FB 


1) 目标 机 “ 搬 桩 ”， 如 打上 KGDB 补 十 ， 这 样 主机 上 的 GDB 可 与 目标 机 的 KGDB 通 过 串口 或 网 口 通 


A EM 


H o 


2) 使 用 仿真 器 ， 仿 真 器 可 直接 连接 目标 机 的 JIAG/BDM， 这 样 主机 的 GDB 就 可 以 通过 与 仿真 器 的 通 
信 来 控制 目标 机 。 


3) 在 目标 板 上 通过 printk ©) 、Oops、strace 等 软件 方法 进行 “观察 ”调试 ， 这 些 方法 不 具备 得 看 和 修 
改 数据 结构 、 断 点 、 单 步 等 功能 。 


21.4~21.7 节 将 对 这 些 调试 方法 进行 一 一 讲解 。 


不 管 是 目标 机 “ 插 桩 ”还 是 使 用 仿真 器 连接 目标 机 JTAG/SWD/BDM， 在 主机 上 ， 调 试 工具 一 般 都 采用 
GDB. 


GDB 可 以 直接 把 Linux 内 核 当 成 一 个 整体 来 调试 ， 这 个 过 程 实际 上 可 以 被 REMU 模 拟 出 来 。 进 入 本 书 
配套 Ubuntu 的 /home/baohua/develop/linux/extra 目 录 下 ， 修 改 run-nolcd.sh 的 脚本 ， 将 其 从 


qemu-system-arm -nographic -sd vexpress.img -M vexpress-a9 -m 512M -kernel 
zImage -dtb vexpress-v2p-ca9.dtb -smp 4 -append "init=/linuxrc root-/dev/ 
mmcblkOpl rw rootwait e arlyprintk console-ttyAMAO" 2>/dev/null 


BUA: 


qemu-system-arm -s -S -nographic -sd vexpress.img -M vexpress-a9 -m 512M -kernel 
zImage -dtb vexpress-v2p-ca9.dtb -smp 4 -append "init=/linuxrc root-/dev/ 
mmcblkOpl rw rootwait e arlyprintk console-ttyAMAO" 2>/dev/null 


即 添 加 -s-S 选 项 ， 则 会 使 能 入 式 ARM Linux 系 统 等 待 GDB 远 程 连 入 。 在 终端 1 运行 新 的 .run-nolcd.sh， 
XIF IRA ARM Linux 的 模拟 平台 在 1234 端 口 侦 听 。 开 一 个 新 的 终端 2， 进 入 /home/baohua/develop/linux/， 
执行 如 下 代码 : 


baohua8baohua-VirtualBox:-/develop/linux$ arm-linux-gnueabihf-gdb ./vmlinux 

GNU gdb (orosstool-NG lrznaro-l.l3.L-4.0-2012.05 = Dinero GCC 2013.09) 7T.672013.05 
Copyright (C) 2013 Free Software Foundation, Inc. 

License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html> 
This is free software: you are free to change and redistribute it. 

There is NO WARRANTY, to the extent permitted by law. Type "show copying" 


and "Show warranty" for details. 

This GDB was conrrigured as “==host—1606-bulld po-elinüxegnu =—=Carjet—dim-—lanux-Gnueabinr™ . 
For bug reporting instructions, please see: 

«https://bugs.launchpad.net/gcc-linaro»... 

Reading symbols from /home/baohua/develop/linux/vmlinux...done. 

(gdb) 


接 下 来 我 们 远程 连接 127.0.0.1: 1234 


(gdb) target remote 127.0.0.1:1234 
Remote debugging using 127.0.0.1:1234 
0x60000000 in ?? () 


设置 一 个 断 点 到 start kernel ©) 。 


(gab) D Start kernel 
Breakpoint 1 at 0x805fd8ac: file init/main.c, line 490. 


继续 运行 : 


(gdb) c 

Continuing. 

Breakpoint 1, start kernel () at init/main.c:490 
490 { 

(gdb) 


汤 点 候 在 了 内 核 局 动 过 程 中 的 start kernel O 函数 ， 这 个 时 候 我 们 按 下 Ctrl+X，A 键 ， 可 以 看 到 代 
人 码 ， 如 图 21.4 所 示 。 


一 步 ， 可 以 看 看 jiffies 值 之 类 的 


(gdb) p jiffies 

$1 = 775612 

(gab) c 

Continuing. 

as 

Program received signal SIGINT, Interrupt. 
cpu v7 do idle () at arch/arm/mm/proc-v7.8:74 
74 ret lr 

(gdb) p jiffies 

92 = 775687 

(gdb) 


page ext_init_flatmem(); 
mem_init(); 

kmem cache init(); 
percpu init late(); 
pgtable init(); 

vmalloc init(); 


asmlinkage _ visible void q— init start kernel(void) 


char *command line; 
char *after dashes; 


* Need to run as early as possible, to initialize the 
* lockdep hash: 
ae i 


lockdep init(); 

set task stack end magic(&init task); 
smp setup processor id(); 

debug objects early init(); 


: start kernel 





图 21.4 GDB 调试 内 核 


尽 时 采用 " 皇 检 ?和 仿 芮 避 结 合 GDB 的 方式 可 以 得 看 和 修改 数据 结构 、 断 点 、 单 步 等 ， 而 printk O 这 


种 最 原始 的 方法 却 应 用 得 更 广泛 。 


printk O 这 种 方法 很 原始 ， 但 是 一 般 可 以 解决 工程 中 95% 以 上 的 问题 。 因 此 具体 何 时 打印 ， 以 及 打 
印 什么 东西 ， 需 要 工程 师 逐 步 建立 敏锐 的 嗅觉 。 加 深 对 内 核 的 认 知 ， 深 入 理解 自己 正在 调试 的 模块 ， 这 才 
是 快速 解决 问题 的 “王道 "。 工 具 只 是 一 个 辅助 手段 ， 无 法 代 蔡 工程 师 的 思维 。 


工程 师 不 能 抱 大 得 过 且 过 的 心 在 ， 也 不 能 总 征 一 知 半 解 地 进行 低 水 平 的 重复 建设 。 求 知 欲 望 对 工程 师 
SLANT We FA E BK BE YF AH o 


21.3 ”内核 打印 信息 printk () 





在 Linux 中 ， 内 核 打 印 语句 printk O 会 将 内 核 信 息 输 出 到 内 核 信 息 绥 冲 区 中 ， 内 核 绥 冲 区 是 在 
kernel/printk.c 中 通过 如 下 语句 静态 定义 的 : 


static char log buf[ LOG BUF LEN] | aligned(LOG ALIGN); 


内 核 信 息 绥 冲 区 是 一 个 环形 缓冲 区 (Ring Buffer) ， 因 此 ， 如 果 塞 入 的 消息 过 多 ， 则 就 会 将 之 前 的 消 
As hill Se o 


print O EX S8MASBARA, TANARO, Aa BK CARR) ， 消 息 越 不 重要 ， 第 0 级 是 紧急 
事件 级 ， 第 7 级 是 调试 级 ， 代 但 清单 21.2 所 示 为 printk《〈) 的 级 别 定 义 。 


代码 清单 21.2 printk O 的 级 别 定 义 














1 #define KERN EMERG "«0»" /* 紧急 事件 ， 一 般 是 系统 崩溃 之 前 提示 的 消息 */ 

2 #define KERN ALERT "<1>" /* 必须 立即 采取 行动 */ 

3 #define KERN CRIT "<2>" / * 临界 状态 ， 通 常 涉 及 严重 的 硬件 或 软件 操作 失败 * / 
4 #define KERN ERR  "«3»" /* 用 于 报告 错误 状态 ， 设 备 驱动 程序 会 

5 经 常 使 用 KERN ERR 来 报告 来 自 硬件 的 问题 / 
6 #define KERN WARNING "<4>" /* 对 可 能 出 现 问题 的 情况 进行 警告 ， 

这 类 情况 通常 不 会 对 系统 造成 严重 的 问题 */ 

8 #define KERN NOTICE meo [* 有 必要 进行 提示 的 正常 情形 ， 

许多 与 安全 相关 的 状况 用 这 个 级 别 进行 汇报 / 
10#define KERN INFO "post /* 内 核 提示 性 信息 ， 很 多 驱动 程序 

11 在 启动 的 时 候 ， 用 这 个 级 别 打印 出 它们 找到 的 硬件 信息 * / 
12#define KERN DEBUG neo /* 用 于 调试 信息 */ 


通过 /proc/sys/Kkernel/printk 文 件 可 以 调节 printk ©) 的 输出 等 级 ， 该 文件 有 4 个 数字 值 ， 如 下 上 所 示 。 
-控制 台 ( 一 般 是 串口 ) HERI: 当 醒 的 打印 级 别 ， 优 先 级 蜗 于 该 值 的 消 恩 将 外 打 纯 人 至 控制 谷 。 


SALE TB e. Hoe Zn]: 将 用 该 优先 级 来 打印 没有 优先 级 前 绥 的 消 轧 ， 也 吏 是 在 百 接 与 printk Cxxx” 
而 不 市 打印 级 别 的 情况 下 ， 会 使 用 该 打印 级 列 。 


-最低 的 控制 台 日 志 级 别 : 控制 台 日 志 级 别 可 个 设置 的 最 小 值 ( 一 般 部 是 1) 。 
默认 的 控制 人 台 日 志 级 询 : 控制 台 日 志 级 列 的 默认 值 。 
如 在 Ubuntu PC 上 ，/proc/sys/kernel/printk 的 值 一 般 如 下 : 


S cat /proc/sys/kernel/printk 
4 4 1 i 


而 我 们 通过 如 下 命令 可 以 使 得 Linux 内 核 的 任何 printk ©) SEM fm edm: 


# echo 8 > /proc/sys/kernel/printk 


在 默认 情况 下 ，DEBUG 级 列 的 消 居 不 会 从 控制 台 输 出 ， 我 们 可 以 通过 在 bootargs 中 设置 ignore loglevel 
来 忽略 打印 级 询 ， 以 傈 证 所 有 消息 都 被 打印 到 控制 侣 。 在 系统 局 动 后 ， 用 户 还 可 以 通过 
© /sys/module/printk/parameters/ignore loglevel X: fF z/] 42K Ve Ei 7e £3 22. We 1] EH ZI « 


要 注意 的 是 ，/proc/sys/kernel/printk 并 不 控制 内 核 消 恩 进 入 _ log buff Hi, KEKER E 
W, BREA log buf, BERRA ETAWA ERRA AKES RAER E H ER. 


HF uf paixtdmesgáüag S AE AFT RRA, BUR ed dmesg, MAZER log buf, 3 
会 清除 该 绥 冲 区 的 内 容 。 也 可 以 使 用 cat/proc/kmsg 命 令 来 显示 内 核 信息 。/proc/kmsg 古 一 个 “ 永 无 休止 的 文 
件 ?”， 因 此 ，cat/proc/kmsg 的 进程 只 能 通过 “Ctrl+C” 或 Kill 终止。 


在 设备 张 动 中 ， 经 彰 需 要 输出 调试 或 系统 信息 ， 尽 管 可 以 征 接 采用 printk (‘<7>debug info...\n”) 方式 
的 printk〈) 语句 得 出 ， 但 十 通 间 可 以 使 用 封 攻 了 printk O 的 更 高 级 的 宏 ， 如 pr debug © 、 
dev debug〈) 等 。 代 人 码 清单 21.3 所 示 为 pr debug ©) 和 pr info O 的 定义 。 


代码 清单 21.3 ”可 将 代 printk《〈) HJZZpr debug ©) 和 和 pr info () 的 定义 


1l#ifdef DEBUG 


2Z#define pr debug(fmt,arg...) \ 

3 printk(KERN DEBUG fmt, ##arg) 

4#else 

OStatic inline int. attribute. . ((formac (printi; 1; 2))) pr debug (conse char > INE. se) 
6 { 

7 return 0; 

e) 

9dendif 
10 
li¢define pr info(fmt,arg...) \ 


12  printk(KERN INFO fmt, ##arg) 


使 用 pr xxx O 族 API 的 好 处 是 ， 可 以 在 文件 最 开头 通过 pr fmt O 定义 一 个 打印 格式 ， 比 如 在 
kernel/watchdog.c 的 最 开头 通过 如 下 定义 可 以 保证 之 后 watchdog.c 调 用 的 所 有 pr xxx ©) 打印 的 消息 都 目 动 
“i? “NMI watchdog: ”的 前 绥 。 


#define pr fmt(fmt) "NMI watchdog: " fmt 
#include <linux/mm.h> 

#include <linux/cpu.h> 

#include «linux/nmi.h». 


代码 清单 21.4 所 示 为 dev dbg O ~ dev err (©) ~ dev info O 等 的 定义 ， 使 用 dev xxx O 族 API 打 印 
KRR KAARE HA DIES ENY E ATA 


代码 清单 21.4 包含 设备 信息 的 可 符 代 printk〈) WA 


l#define dev printk(level, dev, format, arg...) \ 
2 Prinek( level. “os: $9: " Iormaát p dev driver String (dev). , Xidev)--Dus 1d 5 wr arg) 


4#ifdef DEBUG 

se dev dbg (dev; Tormat, SE.) \ 

6 dev printk (KERN DEBUG , dev , format , ## arg) 
7#else 


ee 


9#endif 
10 
ll#define dev err(dev, format, arg...) X 
12 dev printk(KERN ERR , dev , format , ## arg) 
13#define dev info(dev, format, arg...) N 
14 dev printk(KERN INFO , dev , format , ## arg) 
154$define dev warn(dev, format, arg...) M 
16 dev printk(KERN WARNING , dev , format , ## arg) 
lgderzne dev MOLLE (dev, Tormatr- arg.) X 
18 dev printk(KERN NOTICE , dev , format , ## arg) 


在 打印 信息 时 ， 如 果 想 输出 printk() 调用 所 在 的 函数 名 ， 可 以 使 用 _fonc ”; 如 果 想 输出 其 所 在 代 
BAJT, HJEMBSH] LINE ; 想 输出 源 代 人 码 文 件 名 ， 可 以 使 用 FILE _ 。 例 如 drivers/block/sx8.c 中 的: 


#ifdef CARM NDEBUG 
#define assert (expr) 


#else 

#define assert (expr) \ 
Th (unlikely (lh (expr) yy 4 iN 
printk(KERN ERR “Assertion failed! %s,%s,%s,;line=sd\n", A 
#expr, FILE, | func , _LINE_); \ 


) 
#endif 


21.4 DEBUG LL 和 EARLY PRINTK 


DEBUG LL 对 应 内 核 的 Kernel low-level debugging 功 能 ，EARLY PRINTK 则 对 应 内 核 中 一 个 早期 的 控 
制 侣 。 为 了 在 内 核 的 drivers/tty/serial 下 的 控制 台 驱 动 初 始 化 之 前 文 持 打印 ， 可 以 选择 DEBUG LL 和 
EARLY PRINTK 这 两 个 配置 选项 。 另 外 ， 也 需要 在 bootargs 中 设置 earlyprintk 的 选项 。 


对 于 LDDD3 vexpress 而 言 ， 没 有 DEBUG LL 和 EARLY PRINTK 的 时 候 ， 我 们 看 到 的 内 核 最 早 的 打印 


FH 
KE: 


Booting LINUX on physical CPU 0x0 
Initializing Cqroup subsys cpuset 
Linux version . 


如 果 我 们 使 能 DEBUG LL 和 EARLY PRINTK， 选 择 如 图 21.5 所 示 的 “Use PLO11UARTOat 
0x10009000 (V2P-CA9core tile) ”这 个 低级 别 调试 口 ， 并 在 bootargs 中 设置 earlyprintk， 则 我 们 看 到 了 更 早 
的 打印 信息 : 


Uncompressing Linux... done, booting the kernel. 


Kernel hacking 
Arrow keys navigate the menu. <Enter> selects submenus ---> (or empty submenus ----). 
Highlighted letters are hotkeys. Pressing «Y» includes, «N» excludes, «M» modularizes features. 
Press <Esc><Esc> to exit, <?> for Help, </> for Search. Legend: [*] built-in [ ] excluded 
<M> module < > module capable 
C=) 

< > udelay test driver 

[ ] Sample kernel code ---- 

[ ] KGDB: kernel debugger ---- 

[ ] Export kernel pagetable layout to userspace via debugfs 

[ ] Filter access to /dev/mem 

[*] Enable stack unwinding support (EXPERIMENTAL) 

[*] Verbose user fault messages 

[*] Kernel low-level debugging functions (read help!) 

Kernel low-level debugging port (Use PLO11 UARTO at 0x10009000 (V2P-CA9 core 
(0x10009000) Physical base address of debug UART 


Vue Virtual base address of debug UART 
* 


[ ] Write the current PID to the CONTEXTIDR register 
[ ] Set loadable kernel module data as NX and text as RO 
(+) 


< Exit > < Help > < Save > < Load > 





图 21.5 ”选择 低级 别 调试 UART 


21.5 使 用 “proc” 


在 Linux 系 统 中 ，“Yproc” 文 件 系 统 十 分 有 用 ， 它 馈 内 核 用 于 同 用 尸 导 出 信息 。“/proc” 文 件 系 统 是 一 个 
虚拟 文件 系统 ， 通 过 它 可 以 在 Linux 内 核 空间 和 用 户 空 间 之 间 进 行 通 信 。 在 /proc 文 件 系 统 中 ， 我 们 可 以 将 
对 虚拟 文件 的 读 写 作为 与 内 核 中 实体 进行 通信 的 一 种 手段 ， 与 普通 文件 不 同 的 是 ， 这 些 虚 拟 文 件 的 内 容 都 
是 动态 创建 的 。 


mE HJ28 X BRE REN, DRAB RAE. fHieU"/proc" FLEE DEERE 
的 ， 节点 可 写 ， 还 可 用 于 一 定 的 控制 或 配置 目的 ， 例 如 表面 介绍 的 写 /proc/sys/kernel/printk 可 以 改变 
printk ©) 的 打印 级 别 。 


Linux 系 统 的 许多 命令 本 刁 都 是 通过 分 析 ”%proc" 下 的 文件 来 完成 的 ， 如 ps、top、uptimne 和 free 等 。 例 
如 ，free 命 令 通 过 分 析 /procmeminfo 文 件 得 到 可 用 内 存 信 息 ， 下 面 显 示 了 对 应 的 meminfo 文 件 和 free 命 令 的 
结果 。 


1.meminfo 文 件 


[root@localhost proc]# cat meminfo 


MemTotal: 29516 kB 
MemFree: 1472 kB 
Buffers: 4096 kB 
Cached: 12648 kB 
SwapCached: 0 kB 
Active: 14208 kB 
Inactive: 8844 kB 
HighTotal: 0 kB 
HighFree: 0 kB 
LowTotal: 29516 kB 
LowFree: 1472 kB 
SwapTotal: 265064 kB 
SwapFree: 265064 kB 
Drrtyi 20 kB 
Writeback: O kB 
Mapped: T0032 KB 
Slab: 3864 KB 
CommitLimit: 219820. KB 
Committed AS: 13760 kB 
PageTables: 444 kB 
vmallocTotal: 999416 kB 
VmallocUsed: 560 KB 
VmallocChunk: 998580 kB 


2. free 命令 


[root@localhost proc]# free 


total used free shared buffers cached 
Mem: 29516 28104 1412 O 4100 L2 100 
-/+ buffers/cache: 11304 19212 
Swap: 265064 O 265064 


在 Linux 3.9 UL ZZ HE APER RbCA PA, YA SP ee 2c SE" proc S ei: 


struct proc dir entry "create proc entry (Const char “name, mode. t mode; 
SelLUCe PECe Gir cnry *parent)'; 

SELUCE proc dir entry "Credle proc read eutryiconst Char “name; mode. t mode, 
struct proc dir entry “base, read proc L "read proc, Void ~= data); 


create proc entry () 函数 用 于 创建 %proc" 节 点 ， 而 create proc read entry © 调用 
create proc entry © 创建 只 读 的 “Vproc” 节 点 。 参 数 name 为 “/proc” 节 点 的 名 称 ，parent/base 为 父 目录 的 节 
点 ， 如 条 为 NULL， 则 指 “/proc" 目 录 ，read_proc 是 “proc "节点 的 读 函 数 指针 。 当 read〈) 系统 调用 
在 “proc" 文 件 系统 中 执行 时 ， 它 映像 到 一 个 数据 产生 函数 ， 而 不 是 一 个 数据 获取 函数 。 


下 列 函 数 用 于 创建 ”proc"” 目 录 : 


SLLUCE proc dir entry “proc MkGir (Const CHAP “Namie, Surucu Proc dir entry parenc); 


结合 create proc entry () 和 proc mkdir O ， 人 代码 清单 21.5 中 的 程序 可 用 于 先 在 /proc 下 创建 一 个 目录 
procfs_example， 而 后 在 该 目录 下 创建 一 个 文件 example file. 


代码 清单 21.5 proc mkdir () 和 create proc entry OO PA žití H yë il 


1/* 创建 /proc 下 的 目录 */ 


Zexanple dur = proc mkdir ("procie example", NULL); 
31f (example dir == NULL) { 
4 rv =  -ENOMEM; 


D COLO OuL; 

6j 

7 

8Sexample dir->owner = THIS MODULE; 
9 
10/* &jg—4^/procxfr */ 


llexample Tile = Create proc entry ("example file", 060606, example diz); 
121f (example file == NULL) | 

13 rv =  -ENOMEM; 

14 goto out; 

Lo} 

1:6 

l7example file->owner = THIS MODULE; 

l9example file--^read proc — example file read; 
I9esample SIrbhe- "write Proc = example tile wri e; 


TE 23. EX ES 280 Bids dir entry 结构 体 包含 了 “%proc" 节 点 的 读 函 数 指针 
(read proc t*read proc) 、 写 图 数 指针 (write proc t*write proc) LARVA. FUR a SE e 


[proc A HIER 53 RAIRA 43 391] 73: 


Bypeder ant. (read proc ©) (char "page, Char ""SLAEt, Oll. © Oil; 
int count, int *eor, void *data); 
Ltypeder ant (Write proc toL ruel file *"rIile6, Cons. Ciar user *buffer, 


unsigned long count, void *data); 


LKA pagesi ta I8] HT SS A BGI DX, start H Fo IBI SE ER BEES SIAN ERD, eof 
FA FINS WEE. offsetxe BEN 4S, coute HARKE. start Zt EG AS. XI T prek AF 
TR] BARA Tr, TS IS rh RE E ELA HH Yr EL start, KIRA TAREA NB RATE EE VIE A V RO EP] T3 
J o 


与 图 数 与 fle operations 中 的 write〈) X VA RARA, m RAH P RI K BA 4 28 E T EISE 


E Linux% Zgrp up Hi P eS 2509 ER / proc KA: 


VOLO. remove Proc. entry (Const Char “Name; Strutt “proc. Orr enti y "pasem. 


fE Linux AF ZEEE HY n] f HH EY /proc i AREAS: proc root fs (/proc) 、 
proc net (/proc/net) ~ proc bus (/proc/bus) . proc root driver (/proc/driver) =, proc root fsSEbs katz 


NULL. 


代码 清单 21.6 所 示 为 一 个 徐 单 的 %proc" 文 件 系 统 使 用 范例 ， 这 段 代 但 在 模块 加 载 图 数 中 创 
建 /proctest dir 目 录 ， 并 在 该 目录 中 创建 proc/test dir/test rwOCTE B à, ERR EE ER A UR / proc i 
点 ， 而 /proc/test dir/test fw 文件 中 只 保存 了 一 个 32 位 的 整数 。 


代码 清单 21.6_ proc 文 件 系统 使 用 范例 


l#include <linux/module.h> 

2#include <linux/kernel.h> 

3#include <linux/init.h> 

A#include «linux/proc fs.h> 

5 

6static unsigned int variable; 

(Sterile SEPUCC Proc dir embry "best cbr Seo entry, 


8 

Seac IMs west proc. read. (Char “bul, char "ster, OL BODIE. 3b cog, 
LO ine eof word *data) 

11{ 

l2 unsigned Lit. ptr var > data; 

19 rotorn sprite (bury. Im, “per Wer 

14) 

19 

LoS CACIO ING test Proc while (struc: tile ile, Conse. Char ~burrenr, 
1. unsigned long count, void *data) 

18 { 

L9 URS. Gnec Unt "DUE Vero data; 
20 
2l PPL var = pImple surcoul (butter, NULL, 40) 7 
22 
Z9 TeC COUN 
24} 
25 
人 
27{ 


Z0. Ceot OLE = proc. MULE west cur" NUEG) 
29 ub (test air) { 


30 pest enr y = (roate proc encury (TEST rw". 00600 test ULE)? 
Sak LL "(COST enbry) 4 

D pest ent mL ex 

33 pest enuryecdatacc-cwvarrable, 

34 test entry resd proc = Lect proc Peso 
Do Gest. SUDIVM WELLS Proce: — Leste. proc. write; 
36 Leturn. 0; 

D } 

38 } 

39 

40 return -ENOMEM; 

41) 

42module xnzctb5est proc Init)? 

43 

4ddstatrco. exrt VOL test proc cleanupivold) 

45 { 


iG. BEMOVe proc entry (ees. FW sy. Ves UII); 

A) penove proc entry (“vese dir". NUL), 

48) 

49module exit (test: proc cleanup); 

50 

OLMODULE AUTHOR Barry ‘Song «baohuaükernel.org-"); 
IZMODULE DESCRIPTION("proc exmaple"); 

99MODUBE- LICENSE ("CGPI VALF 


上 述 代码 第 21 行 调用 的 simple_strtoul O 用 于 将 用 尸 输入 的 字符 串 转 换 为 无 傈 写 长 整数 ， 第 3 个 参数 
ORRE RUI AETHER. 


编 详 上 述 简单 的 proc.c 为 proc.ko， 运 行 insmod proc.ko 加 载 该 模块 后 ，“%proc" 目 录 下 将 多 出 一 个 目录 
test dirf， 访 目录 下 包含 一 个 test rw，1s-] 的 结果 如 下 : 


ee 
-rw-rw-rw- 1 root root 0 Aug 16 20:45 /proc/test dir/test rw 


测试 /proc/test dir/test rwBJi 5: 


© cat /proc/test dir/test rw 

0 

9 echo 111.» /proc/test dir/test rw 
9 cat /proc/test dir/test rw 


襄 明 我 们 上 一 步 执行 的 写 操作 是 正确 的 。 


在 Linux 3.10 及 以 后 的 版 本 中 ，'“%proc” 的 内 核 API 和 实现 架构 变更 较 大 ，create proc entry () ~ 
create proc read entry () 之 关 的 API 都 被 删 除了 ， 取 而 代 之 的 是 直接 使 用 proc_ create O 、 
proc create data () API。 同 时 ， 也 不 再 存在 read proc O 、write proc © 之 类 的 针对 proc dir entry 的 成 
员 函 数 了 ， 而 是 直接 把 fle_ operations 结 构 体 的 指针 传 入 proc_create〈) 或 者 proc_create_data《〈) 函数 中 ， 
其 原型 为 : 


和 

Const Char “tame, mode t mode, SUPUuGt proc dir entry Aparent 
CONSU:-Se luce Tile- -Opera rong “proc. Ops) 7 

SULLUCL. POC. dor embry proc credque-datad 

CONS Char Wasme. Uode: mode; SU ruce Proc- dar envi. “parent, 
CODSvISLEUGSE ILLO Operations “proc Lops, Vol. xata 


我 们 把 代码 清单 21.6 的 范例 改造 为 同时 支持 Linux 3.10 以 前 的 内 核 和 Linux3.10 以 后 的 内 核 。 改 造 结果 
如 代码 清单 21.7 所 示 。#if LINUX VERSION CODE<KERNEL VERSION (3, 10, 0) 中 的 部 分 是 旧版 本 
的 代码 ， 与 21.6 相 同 ， 所 以 省 略 了 。 


代码 清单 21.7 支持 Linux 3.10 以 后 内 核 的 /proc 文 件 系统 使 用 范例 


l#include <linux/module.h> 

2#include <linux/kernel.h> 

3¢#include <linux/init.h> 

4#include <linux/version.h> 

5#include <linux/proc fs.h» 

6#include <linux/seq file.h> 

T 

estatic unsigned int variable; 

2 tatre Steuct, Proc Cnr ener y tet dirty “Test En BV. 
10 
11#if LINUX VERSION CODE € KERNEL VERSION (3,. 10; 0) 
UA ER 
13#else 
Bob Int “best proc Show truei. seq tle: sedg. womb "wu 
Eo 

Lo uNsSIghed zb “Dir Var = seqe br vos 

I7 Seq prinbri(tseg, "sun", FPCA var); 


18 return 0， 


T9} 

20 

ZlLsUudLrO SOL2e TO Pro WILLeDSUIUCcL. fie: FELIG Conse Ohar Wesen CDULIST 
22 Size. t Count, LOTE E *ppos) 

234 

24 o CTU E Seq Tile omg Iqle-prrwvare Qarta; 

Z9 UunesgnHueg DC Ap var = Seq-> pri vave; 

26 


24 OLE var = Simple SUtrtcoulvDuL5er, NUBE, 1095 

20 return ‘count; 

29 

30 

SLISUSLIC INC test Proc Opens truci Tnode esi street tite SI219) 
321 

39 Xeturn Single openi(iile,; cest proc show. PDE -DAPA(rInode)); 


34] 

DS 

SOStaGEIC QODSL SUruce tie OG erations best proc 06S = 
2374 

39 .Owner = THIS MODULE, 

S9 spen = best proc Open, 

TU. Pead = Seq Tead; 

Al. write = test proc write, 

42. ll159ek = seg Lseek 

A> release = single release, 

SEI 

Ad5#endif 

46 
人 
48 { 


a). Dest UIT = proc mrour (tes. Oar, NUELI? 

0 at (ESSE ier) X 

Sl#¥if LINUX VERSION CODE < KERNEL VERSION (3, 10; 0) 

92 

53#else 

D4 test enurvy = Proc cbedte daca ("res cw, 0606; est Gir, bese proc Tops, variable), 
o> AE best. ODDS) 


56 return. 97 

57#endif 

58 } 

59 

60 return -ENOMEM; 

61] 

o2module rnrirt(cest proc Init}; 

63 

OSSLdLIc.. GIC owold test. proc Cleanup (void) 
65{ 


CO: Gemove: Proc Cnty ("best Tw Test GHI 
oy remove proc entry ("best dir', NUBE): 
68 } 

osmodgule. exit test proc Cleanup); 


21.6 Oops 


当 内 核 出 现 英 似 用 户 空 间 的 Segmentation Fault 时 《例如 内 核 访问 一 个 并 不 存在 的 虚拟 地 址 ) =, Oops 


似 打 印 到 控制 合 和 写 入 内 核 log 绥 冲 区 。 


我 们 在 globalmem.c 的 globalmem read O 函数 中 加 上 和 下面 一 行 代 码 : 


} else { 
DOS += Count; 
ret - count; 
*(unsigned int *)0 = 1; /* a kernel panic */ 


printk(KERN INFO "read $u bytes(s) from $luMn", count, 


p); 


假设 这 个 字符 设备 对 应 的 设备 节点 是 /dev/globalmem， 通 过 cat/dev/globalmem 命 令 读 设备 文件 ， 将 得 到 


如 下 Oops 人 信息: 


# cat /dev/globalmem 
Unable to handle kernel NULL pointer dereference at virtual address 00000000 


pgd = 9ec08000 

[00000000] *pgd=7£733831, *pte=00000000, *ppte-00000000 
Internal error: Oops: 817 [#1] SMP ARM 

Modules linked in: globalmem 

CPU: 0 PID: 609 Comm: cat Not tainted 3.16.0+ #13 

task: 9f7408000 ti: 9£722000 task.ti: 9f£722000 


PC is at globalmem read-*O0xbc/Oxcc [globalmem] 
LR is at 0x0 

po [<7 LOO002Z002 | 
Bp. $ 9/2320 XD 2 
rios SrT414000 r9 
ry = 00000000 r6 
r3 + 00000001 r2 
pddgss necw IROS 


lr s [«0000000025] par: 00000013 

00000000 £p: 00000000 

00000000 r8 00001000 

00001000 r5 00001000 x4 00000000 

: 00000000 r1 00001000 r0 Tr0O0036GC6 

onm FIOS on Mode 5VC 32 deh ARM Segment user 
Control; 10cb3c/d Table: TecUS059. DAC? -00000015 

Process cat (pid: 609, stack limit = 0x9f722240) 


oLtdckr (0x91725L50 tO 029724000) 


SEZs 
3r40? 
3160; 
Sr 60? 
3fa0: 
arcs 
3Le0% 


[<7£000200>] 


00001000 
9f5e4628 
00001000 
9f722000 
00001000 
DDTSOS SC 


Jed5ebl8 9f723tf80 
9E79ab40' Gr 7 9ab40 
00000000 9f£7168c0 
8000e360 00001000 
7Jed5ebl8 00000003 
7Jed5ebO00 0000f718 


00000000 
00001000 
00001000 
7ed5eb18 
00000003 
00g0Sdec 


Teda Cral 
00000000 
7ed5eb18 
7ed5eb18 
00000003 
7ed5eb18 
60000010 
from 


9£723f80 
o0OGbIL4 
00000000 
00000003 
7ed5eb18 
00000001 
00000003 


[$500651.54] 


00000000 
00000020 
00000000 
00000003 
00001000 
00000003 
00000000 


9f£79ab40 
9£722000 
800cb2ec 
8000e4e4 
0000002£f 
00000000 
00000000 


(globalmem read [globalmem]) (vis read+0x98/0x13c) 
[<800cb114>] (vfs read) from [«800cbZec»] 
[$0500cb2eo^] (sys read) from pS80008200-*] 
Code: ela05008 e2a77000 el1c360f0 e3a03001 
---| end trace 5a36d6470da50d02 ]--- 


Segmentation fault 


(SyS read+0x44/0x84) 
(ret fast syscall1+0x0/0x30) 
(e58c3000) 


上 述 Oops 的 第 一 行 给 出 了 “原因 ”， 即 访问 了 NULL pointer. Oops'F HIPC is at 


globalmem read+0xbc/0xcc 这 一 行 代 人 也 比较 关键 ， 给 出 了 “ 事 友 现场 "， 即 globalmem read O AZU 


0xbc 子 市 的 指令 处 。 


通过 反 汇 编 globalmem.o 可 以 寻找 到 globalmem read O 子 数 开 涉 位 置 偏 移 0xbc 的 指令 ， 反 汇编 方法 如 


Ps 


drivers/char/globalmem$ arm-linux-gnueabihf-objdump -d -S globalmem.o 


对 应 的 反 汇 编 代码 如 下 ，global read O 开始 于 0x144， 仿 移 0xbc 的 位 置 为 0x200: 


Static BSIZ6 LC globaimem reado rac Tile "ILLD, char user * Dub. Size U Size; 
lori t * Dpos) 
{ 


144: e92d45f0 push rå; JO. DO; fip te, Si, lij 
148: e24dd00c sub Spy SD, l2 

unsigned long p = *ppos; 
| e5934000 ldr pd. [r3] 


“DOS Se Counc; 


LEA: e2a77000 adc r7, r7, #0 
193 elc360f0 strd roy [r3] 
ret - count; 
“(unsigned int ~)0 = le 7* a kernel panic */ 
Lic: e3a03001 mov r3, #1 
L003 e58c3000 Stir fo, [Lip 


printk(KERN INFO "read $u bytes(s) from aluin"; count, p); 
204 E 
return ret; 


"strr3,. [ip 和 是 引起 Oops 的 指令 。 这 里 仅仅 给 出 了 一 个 例子 ， 工 程 实践 中 的 “ 事 妥 现场 ”并 不 全 那么 
Ee], {ATR ABER MAN « 


LM 


A 


21.7 BUG ON () 和 WARN ON ©) 


内 核 中 有 许多 地 方 调用 类 似 BUG() 的 语句 ， 它 非常 像 一 个 内 核 运行 时 的 断言 ， 意 味 看 本 来 不 该 执 
行 到 BUG O 这 条 语句 ， 一旦 执行 即 抛 出 Oops。BUG O 的 定义 为 : 


#define BUG() do { \ 


printk("BUG: failure at ssi a/o in", . FILE. » LINE p tune JF \ 
pani e("BUGI™)\s X 
} while (0) 


其 中 的 panic〈) 定义 在 kernel/panic.c 中 ， 会 导致 内 核 朋 吝 ， 并 打印 Oops。 比 如 arch/army/kernel/dma.c 中 的 
enable dma () pki 2: 


void enable dma (unsigned int chan) 
{ 
dma t *dma = dma channel (chan) ; 
if (!dma-»lock) 
goto free dma; 
if (dma->active == 0) I 
dma->active = 1; 
dma-»d ops->enable(chan, dma); 
} 
return? 
Lree dma; 


printk(KERN ERR "dma$d: trying to enable free DMA\n", chan); 
BUG () ; 


ERREKA, WR Edma-lockP Kk h. AH S enable dma O ， 实 际 上 意味 
看 和 内核 的 一 个 bug。 


BUG O 还 有 一 个 变 体 叫 BUG ON O ， 它 的 内 部 会 引用 BUG O ， 形 式 为 : 


#define BUG ON(condition) do { if (unlikely(condition)) BUG(); } while (0) 


对 于 BUG ON O 而 言 ， 只 有 当 括 号 内 的 条 件 成 立 的 时 候 ， 才 抛 出 Oops。 比 如 drivers/charrandom.c 中 
的 类 似 代码 : 


Static void push to pool(Struct work struct *work) 


{ 
SULUCE. GenLEODy Score Tr = conLaluer CL (work, SUDUCL entropy store; 


push work); 
BUG ONI]? 


_xfer secondary pool(r, random read wakeup bits/8); 
brace push to poolir-oname, r:--entropy count >> ENTROPY SHIFT; 
pecpull-^entropy. count >> ENTROPY SHIFT)? 


除了 BUG ON O 外 ， = nO () ， 在 括号 中 的 条 件 成 立 的 时 候 ， 内 核 会 抛 
出 栈 回 调 ， 但 是 不 会 panic〈) ， 这 通常 用 于 内 核 抛 出 一 个 警告 ， 瞳 示 某 种 不 太 合 理 的 事情 发 生 了 。 如 在 
kernel/locking/mutex-debug.c 中 的 debug mutex unlock () 函数 发 现 mutex unlock O 的 调用 者 和 
mutex lock O 的 调用 者 不 是 同一 个 线程 的 时 候 或 者 mutex 的 owner 为 空 的 时 候 ， 会 抛 出 警告 信息 : 


vord- debug mutex unlock(struce mutex FLOCK) 


{ 
Lr CLlakely (debug. Locks)) :| 


DEBUG LOCKS WARN ON(lock->magic != lock); 
if (!lock->owner) 
DEBUG LOCKS WARN ON(!lock-»owner); 
else 
DEBUG. LOCKS WARN ONCLOGk- owner current 


DEBUG LOCKS: WARN-ON(LIOGK-^wart lst .préev ce XlOOK- "wart. Lrstinexo): 
mutex clear owner(lock); 


有 时 候 ，WARN ON O 也 可 以 作为 一 个 调试 技巧 。 比 如 ， 我 们 进 到 内 核 菜 个 函数 后 ， 不 知道 这 个 函 
数 是 怎么 一 级 一 级 锐 调 用 进来 的 ， 那 可 以 在 该 水 数 中 加 入 一 个 WARN ON (1) 。 


21.8 strace 


在 Linux 系 统 中 ，strace 是 一 种 相当 有 效 的 跟踪 工具 ， 它 的 主要 特点 是 可 以 被 用 来 监视 系统 调用 。 我 们 
不 仅 可 以 用 strace 调 试 一 个 新 开始 的 程序 ， 也 可 以 调试 一 个 已 经 在 运行 的 程序 (这 意味 看 把 strace 绑 定 到 一 
个 已 有 的 PID 上 ) 。 对 于 第 6 章 的 globalmem 字 符 设 备 文件 ， 以 strace 方 式 运 行 如 代码 清单 21.8 所 示 的 用 户 衬 
间 应 用 程序 globalmem test， 运 行 的 结果 如 下 : 


execve("./globalmem test", ["./globalmem test"], [/* 24 vars */]) = 0 

open ("/dev/globalmem", O RDWR) = 3 /* 打开 的 /dev/9globalmem 的 fd 是 3 */ 

ioctl(3, FIBMAP, 0) = 0 

read(3, Oxbff17920, 200) = -] ENXIO (No such device or address)/* 读 取 失败 */ 
lstatod(tl,. st mes LECHRIQOZ0, SUC rdev—mekedey (loo, OD); exer) = U 

mmap2 (NULL, 4096, PROT READ|PROT WRITE, MAP PRIVATE|MAP ANONYMOUS, -1, 0) = Oxb7f04000 
write(1, "-1 bytes read from globalmem\n", 29-1 bytes read from globalmem 

) = 29 /* 向 标准 输出 设备 (fd4l)sSAprintfmmmemgm */ 

write(3, "This is a test of globalmem", 27) = 27 

write(1, "27 bytes written into globalmem\n", 3227 bytes written into globalmem 


) = 32 


48] EA] BE — £1] DY 1 Linux 42a, KERN AUA, SS Ae SEU HY PAN 4 BS 
数 ， 右 边 是 该 调用 的 返回 值 。 


S 


代码 清单 21.8 HP 281A) vee? globalmem_test 


l#include ... 

2 

3#define MEM CLEAR 0x1 

4main() 

24 

© XE. td; Hum, pos? 

7T Char wre ch[200] = "This 15 a test of globalmem"; 


e Char rda -ch [20017 
9 /* $jr/dev/globalmem */ 
10 fd = open("/dev/globalmem", O RDWR, S IRUSR | S IWUSR); 


11 if (fd != -1 ) { /* 清除 globalmem */ 

12 LL(1O0CcLtl(rd,.MEM CLEAR, 0) < 0) 

13 printf ("ioctl Command farled\n")> 

14 /* izglobalmem */ 

ibo num. reada; xo ox. 200); 

16 printf ("Sd bytes read from globalmem\n", num); 
17 

18 /* Sglobalmem */ 

19 il 

Z0 printf ("Sd bytes written into globalmem\n", num) ; 
2l TP 

22 close (fd); 

23 J 

24} 


使 用 strace 虽 然 无 法 直接 追踪 到 设备 驱动 中 的 函数 ， 但 是 足以 帮助 工程 师 进 行 推演 ， 如 从 
open (“/dev/globalmem’, O_RDWR) =3 的 返回 结果 知道 /dewglobalmem 的 全 为 ?3， 之 后 对 人 包 为 3 的 文件 进行 
read © . write © 和 ioctt〈) 系统 调用 ， 最 终 会 使 globalmem 里 file operations 中 的 相应 函数 被 调用 ， 通 过 
系统 调用 的 结果 就 可 以 知道 驱动 中 globalmem read © 、globalmem write Ù) 和 globalmem ioctl © 的 运 


a 


行 结 


21.9 KGDB 


Linux Hj £t fX IKGDBHJSCHP, KGDBOKH] S HÆRRA E I, 一般 依 赖 于 串口 与 出 
试 主机 通信 。 为 了 支持 KGDB， 串 口 驱动 应 该 实现 纯粹 的 轮 询 收发 单一 字符 的 成 员 函 数 ， 以 供 
drivers/ttyserialkgdboc.c 调 用 ， 璧 如 drivers/ttywserial/8250/82$0 core.c 5: 


cotati SUPUCE Ta Ops. ea pops. = 4 


#ifdef CONFIG CONSOLE POLL 
poll get char = serrials250 get poll. char; 
POLL put Cher = seridgle7o0 put POLL char, 
#endif 
}; 


在 编 详 内 核 时 ， 运 行 make ARCH=arm menuconfig 时 和 需 选 择 关 于 KGDB 的 编译 项 目 ， 如 图 21.6 所 示 。 


KGDB: kernel debugger 
Arrow keys navigate the menu. <Enter> selects submenus ---> (or 
empty submenus ----). Highlighted letters are hotkeys. Pressing «Y» 
includes, <N> excludes, <M> modularizes features. Press <Esc><Esc> 
to exit, <?> for Help, </> for Search. Legend: [*] built-in [ ] 


B-E KGDB: kernel debugger 


<*>  KGDB: use kgdb over the serial console (NEW) 
[] GDB: internal test suite (NEW) 
[] “GDB KDB: include kdb frontend for kgdb (NEW) 


< Exit > < Help > < Save > < Load > 





21.6 KGDB 编 译 选 项 配置 


对 于 目标 板 而 言 ， 需 要 在 bootargs 中 设置 与 KGDB 对 应 的 串口 等 信息 ， 如 kgdboc=ttyS0， 


115200kgdbcon. 


TRAGE S BB A AS FF GDBIE BE HVA, P WEbootargs Fix Ei kgdbwait, kgdbwaitH) 
AANER SJ ge FE WLIGDBiee. MARE NIA Ja eEAGDB NR, nisírecho 


g>/proc/sysrq_trigger 命 令 给 内 核 传 入 一 个 键 值 是 g 的 magic sysrq。 


在 调试 PC 上 ， 依 次 运行 如 下 命令 束 可 以 局 动 调试 并 连接 人 至 目标 机 假设 串口 在 PC 上 对 应 的 设备 节 所 


是 /dev/ttyS0) : 


# arm-eabi-gdb ./vmlinux 
(gdb) set remotebaud 115200 
(gdb) target remote /dev/ttyS0 / /连接 目标 机 


之 后 ， 在 主机 上 ， 我 们 可 以 使 用 GDB 像 调试 应 用 程序 一 样 调试 使 能 了 KGDB 的 目标 机 上 的 内 核 。 


21.10 f FH C WIAA Ty 


在 ARM Linux 领 域 ， 目 前 比较 主流 的 是 采用 ARM DS-5Development Studio7; 22. ARM DS-5 是 一 个 针 
HAE F Linux h RAMARI RA RRA EMRA RERIT R, Cm S FRKA MEJI 
I AMBIT EASIDV ABER vai. DT. SUÉZ1.7HTzS. EH f DSTREAM ETERN Aar ARMOA F 
iE EXRVI-RVT2 Aas) ， 在 Eclipse 内 包含 了 DS-5 和 DSTREAM 的 开发 插件 。 


调试 主机 一 般 通 过 网 线 与 DSTREAM 仿 真 器 连接 ， 而 仿真 器 则 连接 与 电路 板 类 似 的 JTAG 接 口 ， 之 后 
用 DS-5 调 试问 进行 调试 。DS-5 图 形 化 调试 右 提 供 了 全 面 和 直观 的 调试 图 ， 非 第 易于 调试 Linux 和 裸 机 程 
Fe, JT EARB, DET RW, BAA. areas. KAN Be, DARRIE, KEM E. 


dimwTparks 
0xS0000822 


)x800OOP eC 





ost abo imet Inset meme Z 


图 21.7 DSTREAM 仿 真 器 和 DS-5 开 发 环境 





值得 一 提 的 是 ，DS-5 也 提供 了 Streamline Performance Analyzer. ARM Streamline 性 能 分 析 器 ( 见 图 
21.8) 为 软件 开发 人 员 提 供 了 一 种 用 来 分 析 和 优化 在 ARM926、ARMI11 和 Cortex-A 系 列 平 台 上 运行 的 Linux 
和 Android 系 统 的 卫 观 方法 。 使 用 Streamline，Linux 内 核 中 需 包 含 一 个 gator 模 块 ， 用 户 容 间 则 需要 使 能 
gatord 后 台 服 务 器 程序 。 关 于 Streamline 具 体 的 操作 方法 可 以 查看 《ARM DS-5Using ARM Streamline) . 
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图 21.8 ” ARMStreamline 性 能 分 析 器 


21.11 应 用 程序 调试 


在 通 入 云 系 统 中 ， 为 调试 Linux 应 用 程序 ， 可 在 目标 板 上 和 驳 运 行 GDBServer， 有 再 让 主机 上 的 GDB 与 目 
人 标 板 上 的 GDBServer 通 过 网 口 或 串口 通信 。 


1 .目标 板 
南 要 运行 如 下 命令 局 动 GDBServer: 
人 
«host ip»: <port> 为 主机 的 卫 地 址 和 交口 ，app 征 可 执行 的 应 用 程序 名 。 
当然 ， 也 可 以 用 系统 中 空闲 的 串口 作为 GDB 调 试 器 和 GDBServer 的 底层 通信 手段 ， 如 : 


gdbserver/dev/ttyS0./tdemo 


南 要 先 运行 如 下 命令 月 动 GDB: 
arm-eabi-gdb <app> 
app 与 GDBServer 的 app 参 数 对 应 。 
之 后 ， 运 行 如 下 命令 束 可 以 连接 目标 板 : 
要 
«target ip»: <porf> 为 目标 机 的 卫 地 址 和 交口 。 
如 果 目 标 板 上 的 GDBServer 使 用 串口 ， 则 在 箱 主 机 上 GDB 也 应 该 使 用 串口 ， 如 : 


(gdb) target remote/dev/ttyS1 
之 后 ， 便 可 以 使 用 GDB 像 调试 本 机 上 的 程序 一 样 调 斌 目标 机 上 的 程序 。 
3. 通 过 GDB server 和 ARM GDB 调 试 应 用 程序 


在 ARM 开 及 板 上 放置 GDB server， 便 可 以 通过 目标 板 与 调试 PC 之 间 的 以 太 网 等 调试 。 要 调试 的 应 用 
程序 的 源 代码 如 下 : 


/* 
* gdb example.c: program to show how to use arm-linux-gdb 
ari 
vord NNOIOSSE One ime Vd 
{ *data = *data + 1; 
j 
int main(int argc, char *argv[]l) 
( int dat = 0; 
Ln wo = D; 
increase one(&dat); 
/* program will crash here */ 
increase One (p); 
return 0; 


iI debug/7 3X2 FE : 


arm-limux-gnueabi-gqoc eg =0 gdb example gdb. examplesc 


将 程序 下 载 到 目标 板 后 ， 在 目标 板 上 运行 : 


# gdbserver 192.168.1.20:1234 gdb example 
Process. gdb example created; pid = L026 
Listening on port 1234 


其 中 192.168.1.20 为 目标 板 的 3IP，1234 为 GDBserver 的 侦 上 听 端 口 。 


如 朵 目标 机 是 Android 系 统 ， 且 没有 以 太 网 ， 可 以 竹 试 使 用 adb forward 功 能 ， 比 如 adb forward tcp: 


1234tcp: 1234 是 把 目标 机 1234 端 口 与 主机 1234 端 口 进行 转发 。 
在 主机 上 运行 : 
$ arm-eabi-gdb gdb example. 
主机 的 GDB 中 运行 如 下 命令 以 连接 目标 板 : 


(gdb) target remote 192.168.1.20:1234 
Remote debugging using 192.168.1.20:1234 


Ox400007b0 in ?? () 


Qu Xe AndroidHJadb forward, Jill] Ex&target remote 192.168.1.20: 


成 下 接连 接 本 机 了， 可 和 直接 与 成 target remote: 1234. 
运行 如 下 命令 将 断 点 设置 在 increase one (&dat) ; 这 一 行 : 


(gdb) b gdb example.c:160 
Breakpoint J ac 0302790; file gdb exanplec, line 169; 


通过 c 命 令 继续 运行 目标 板 上 的 程序 ， 有 及 生 新 点 : 


(gdb) c 
Continuing. 


1234 中 的 卫 地 址 可 以 去 择 ， 因 为 它 变 


Breakpoint lI, marn (argc-1l1, argv—Oxbead4eb4). at gdb example.c: 16 
loincrease one (é&dat); 


运行 n 命 令 执 行 完 increase one (&dat) ; 再 但 看 dat 的 值 : 


(gdb) n 
L9rnorease one(p); (gdb). p dat 
91-21 


及 现 dat 变 成 1。 继 续 运 行 c 命 令 ， 由 于 即将 访问 空 指针 ，gdb_example 将 朋 温 : 


(gdb) c 
CONDI 
Program received signal SIGSEGV, Segmentation fault. 
0x0000834c 1n ancrease one (data-U0x0) at gdb examplesc:o 
8*data = *data + 1; 


我 们 通过 bt 命令 可 以 全 到 backtrace: 


(gdb) bt 
#0 Ox0000834c in increase one (data=0x0) at gdb example.c:8 
#1 Ox000083a4 in main (argc-1, argv=Oxbead4eb4) at gdb example.c:19 


通过 info regan HJ DA AG HA ATT ASE: 


(gdb) info reg 

E0050: +0 
rl0xbead4eb43199028916 
Ol AL 

YSO 4) 
r40x4001e5e01073866208 
E505:50- D 

E00x020033599 

EJOO 4) 

r80x0 Q 

r90x0 0 

r10 0x400250001073893370 
rll 0xbead4d443199028548 
r12 0xbead4d483199028552 
sp Oxbead4d300xbead4d30 
lr 0x83a433700 

pe 0x834c0x834c «increase onet24> 
Eps xU -O 

epsr OxG00000l01 610012752 


21.12 Linux 性 能 监控 与 调 优 工具 


除了 你 证 程序 的 正确 性 以 外 ， 在 项 目 开 友 中 往往 还 关心 性 能 和 稳定 性 。 这 时 候 ， 我 们 往往 要 对 内 核 、 
应 用 程序 或 整个 系统 进行 性 能 优化 。 在 性 能 优化 中 第 用 的 手段 如 下 。 


1 .使 用 top、vmstat、iostat、sysctl 等 党 用 工具 


top 命 令 用 于 显示 处 理 需 的 活动 状况 。 在 缺 省 情况 下 ， 显 示 占 用 CPU 最 多 的 任务 ， 并 且 每 隔 $s 做 一 次 
刷新 ，vmstat 命 令 用 于 报告 关于 内 核 线 程 、 虚 拟 内 存 、 磁 盘 、 陷 阱 和 CPU 活动 的 统计 信息 ; iostat 命 令 用 于 
分 析 各 个 磁盘 的 传输 闲 忙 状况 ，netstat 是 用 来 检测 网 络 信 息 的 工具 ;sar 用 于 收集 、 报 告 或 者 保存 系统 活动 
信息 ， 其 中 ，sar 用 于 显示 数据 ，sarl 和 sar2 用 于 收集 和 保存 数据 。 


sysctl 是 一 个 可 用 于 改变 正在 运行 中 的 Linux 系 统 的 接口 。 用 sysctl 可 以 读 取 几 百 个 以 上 的 系统 变量 ， 例 
如 用 sysctl-a 可 谈 取 所 有 爸 量 。 


sysctl 的 实现 原理 是 : 所 有 的 内 核 参 数 在 proc/sys 中 形成 一 个 树 状 结构 ，sysctl 系 统 调用 的 内 核 函 数 征 
sys sysctl, ULP HE. mR Edo sysctl strategy 中 完成 ， 如 


echo "1" > /proc/sys/net/ipv4/ip forward 


SYSCLL =W net. r:pv4.1p Torward ="1" 


2. Für ZA FE, WIOProfile. gprof 


OProfilen] LATE Bj Hd P? VAR v URRY AES IRI. ARIE. te Re EEN EHE AIC. TOC ATHE 
换 和 元 有余 操作 、 错 误 预 测 转移 等 问题 。 它 收集 有 关 处 理 右 事件 的 信息 ， 其 中 包括 TLB 的 故障 、 侣 机 、 存 储 
a Vi IH] DA Be Be Fe HEURE as P JS ERA. 


OProfile 支 持 两 种 采样 方式 ， 基于 事件 的 采样 (Event Based) 和 基于 时 间 的 采样 (Time Based) 。 基 于 
事件 的 采样 是 OProfile 只 记录 特定 事件 《比如 L2 绥 存 未 命中 ) 的 发 生 次 数 ， 当 达到 用 户 设 定 的 定 值 时 
Oprofile 就 记录 一 下 〔〈 采 一 个 样 ) 。 这 种 方式 需要 CPU 内 部 有 性 能 计数 器 (Performace Counter) 。 基 于 时 
间 的 采样 是 OProfile 借 助 OS 时 钟 中 断 的 机 制 ， 在 每 个 时 钟 中 断 ，OProfile 都 会 记录 一 次 〈 采 一 次 样 ) 。 引 
入 它 的 目的 在 于 ， 提 供 对 没有 性 能 计数 右 的 CPU 的 文 持 ， 其 精度 相对 于 基于 事件 的 采样 要 低 ， 因 为 要 信 助 
OS 时 钟 中 断 的 文 持 ， 对 于 蔡 用 中 断 的 代码 ，OProfile 不 能 对 其 进行 分 析 。 


OProfile 在 Linux 上 分 两 部 分 ， 一 个 是 内 核 模 块 (oprofile.ko) ， 男 一 个 是 用 户 空 间 的 守护 进程 


Coprofiled) 。 前 着 负责 访问 性 能 计数 硕 或 者 注 册 基 于 时 间 采 梓 的 函数 ， 并 将 采样 值 首 于 内 核 的 缓冲 区 
内 。 后 者 在 后 侣 运行 ， 负 贡 从 内 核 空 间 收集 数据 ， 写 入 文件 。 其 运行 步 又 如 下 。 


1) 初始 化 opcontrol--init 

2) 配置 opcontrol--setup--event=.… 
3) 局 动 opcontrol--start 

4) 运行 竺 分 析 的 程序 xxx 

5) 取出 数据 

opcontrol--dump 

opcontrol--stop 

6) 分 析 结 果 opreport-]./xxx 


用 GNU gprof 可 以 打印 出 程序 运行 中 各 个 函数 消耗 的 时 间 ， 以 帮助 程序 员 找 出 众多 函数 中 耗 时 最 多 的 
因数 ;还 可 产生 程序 运行 时 的 函数 调用 关系 ， 包 括 调 用 次 数 ， 以 玫 助 程序 员 分 析 程 序 的 运行 流程 。 


GNU gpro 的 实现 原理 :在 编 详 和 链接 程序 的 时 候 〈 使 用 -pg 编 详 和 链接 选项 ) ，gcc 在 应 用 程序 的 每 

因数 中 都 加 入 名 为 mcount € mcount 或 “mcount， 依 赖 于 纺 详 做 或 操作 系统 ) 的 函数 ， 也 束 是 说 应 用 程 
序 里 的 每 一 个 数 都 会 调用 mcount， 而 mcount 会 在 内 存 中 剑 仓 一 张 函 数 调用 图 ， 并 通过 函数 调用 扒 栈 的 形 
AART PA BAIS eA HE. OTR te aE SATA BRR ed FEN TR). ed BSS EN BIT fs 
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GNU gprof 的 基本 用 法 如 下 。 

1) 使 用 -pg 编译 和 链接 应 用 程序 。 

2) 执行 应 用 程序 并 使 它 生成 供 gprof 分 析 的 数据 。 

3) 使 用 gprof 程 序 分 析 应 用 程序 生成 的 数据 。 
进行 内 核 跟踪 ， 如 LTTng 


LTTng (Linux Trace Toolkit-next generation， 官 方 网 站 为 http://lttng.org/〉 是 一 个 用 于 跟踪 系统 详细 运行 
状态 和 流程 的 工 其 ， 它 可 以 跟 躁 记录 系统 中 的 特定 事件 。 这 些 事件 包括 : 系统 调用 的 进入 和 退出 ; 陷阱/ 
lt (Trap/Irq) 的 进入 和 退出 ;进程 调度 事件 ， 内 核定 时 并 ;进程 管理 相关 事件 一 一 创建 、 唤 醒 、 信 和 号 


处 理 等 ， 文 件 系 统 相 关 事 件 open/read/write/seelvioctl 等 ;内 存 管理 相关 事件 一 一 内 存 分 配 /释放 等 ;其 
他 IPC/ 套 接 字 /网 络 等 事件 。 而 对 于 这 些 记 录 ， 我 们 可 以 通过 图 形 的 方式 经 由 lttv-gui 碍 看 ， 如 图 21.9 所 示 。 





4. 使 用 LTP 进 行 压 力 测试 


LTP (Linux Test Project， 官 方 网 站 为 http://ltp.sourceforge.net/)》 是 一 个 由 SGI 发 起 并 由 IBM 负 责 维 护 的 
合作 计划 。 它 的 目的 是 为 开源 社区 提供 测试 套件 来 验证 Linux 的 可 靠 性 、 健 壮 性 和 稳定 性 。 它 通过 压力 测 
试 来 判断 系统 的 稳定 性 和 可 菲 性 ， 在 工程 中 我 们 可 使 用 LTP 测 试 侠 件 对 Linux 操 作 系 统 进行 超 长 时 间 的 测 
试 ， 它 可 进行 文件 系统 压力 测试 、 便 盘 VO 测 试 、 内 和 存 定 理 压 力 测 试 、IPC 压 力 测试 、SCHED 测 试 、 命 令 
功能 的 验证 测试 、 系 统 调用 功能 的 验证 测试 等 。 


Linux Trace Toolkit Viewe 


File View Tools Plu 


me Ee eeo QAQ arx ODP zems>d I 


Brand PID TGID PPID CPU Bi rth ° 
648 643 562 0 0 
649 643 562 0 0 


SurfaceFlinger 651 643 562 
DisplayEventThr 652 643 562 
653 653 1 
654 653 1 
655 653 1 
KER RA 
Tracefile CPUID Event ime(s) Time(ns) PID Event Description 
/home/barry/training/debug/Ittng-traced-data/trace-inand kernel 0 syscall_entry 260025634 655 kernel.syscall_entry: 0.260025634 (/ho 
[/home/barry/training/debug/Ittng-traced-data/trace-inand kernel sched_schedule 260026855 650 kernel.sched_schedule: 0.260026855 (/ 
raining/debug/lttng-traced-data/trace-inand kerne syscall_exi 260028076 650 kernelsyscall exit: 0.260028076 (/ho 
raining/debug/lttng-traced-data/trace-inand kerne syscall entr 260029296 650 kernelsyscall entry: 0.260029296 (/ho 
aining/debug/Ittng-traced-data/trace-inand kerne syscall exi 260030517 650 kernel.syscall exit: 0.260030517 (/ho 
raining/debug/Ittng-traced-data/trace-inand kerne syscall entr 260031738 650 mace i 0.260031738 (/ho 
raining/debug/lttng-traced-data/trace-inand kerne syscall exi 260032958 650 —— xit: 0.260032958 (/hon 
raining/debug/Ittng-traced-data/trace-inand kerne syscall_entr 260034179 650 kernels entry: 0.260034179 (/ho 





图 21.9 ERA 
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可 用 于 Linux 的 Benchmark 的 包括 Imbench、UnixBench、AIM9、Netperf、SSLperf、dbench、Bonnie、 
Bonnie++、Iozone、BYTEmark 等 ， 它 们 可 用 于 评估 操作 系统 、 网 络 、LIO 子 系统 、CPU 等 的 性 能 ， 参 考 网 
Ehttp://lbs.sourceforge.net/ 列 出 了 许多 Benchmark 工 上 其。 


21.13 Mme 


Linux 程 序 的 调试 ， 尤 其 是 内 核 的 调试 看 起 来 比较 复 林 ,没有 类 似 于 VC++、Tornado 的 IDE 开 友 坏 境 ， 
最 征用 的 调试 手段 依然 古文 本 方式 有 的 GDB。 文 本 方式 的 GDB 调 试问 功能 弄 第 强大 ， 当 我 们 使 用 习惯 后 ， 
Blas HSE is HA. 


Linux A AZ Jb JJ ER] V AU VAS edi SE. BE oa All fie printk ©) ~ Oops. strace, TEAS BUA 
下 ， 原 始 的 prink《〈) 仍然 是 最 有 效 的 手段 。 


除了 本 革 介 绍 的 方法 外 ， 在 驱动 的 调试 中 很 可 能 还 会 信 助 其 他 的 人 硬件 或 软件 调试 工具 ， 如 调试 USB 驱 
动 最 好 借助 USB 分 析 仪 ， 用 USB 分 析 仪 将 可 捕获 USB 通 信 中 的 数据 包 ， 如 同 网 络 中 的 Sniffer 软 件 一 样 。 


